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内 容 提 要 


放 的 销 费 互联 网 时 代 到 现在 作为 敏感 数据 可 信和 














第 1 章 是 介绍 性 内 容 ， 人 
全 审计 ， 第 三 部 分 是 数据 安全 ， 第 四 部 分 
诸多 概念 。 
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分 : 第 一 部 分 是 安全 架构 ， 第 二 部 分 是 验证 、 授 权 和 安 
2 归纳 总 结 。 最 后 介绍 了 几 个 使 用 案例 ， 融 合 了 书 中 














本 书 适合 对 Hadoop 感 兴趣 的 读者 ， 有 大 数据 平台 保护 需求 的 读者 。 
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WR, “Hadoop 安全 ”成 为 了 一 个 充满 矛盾 的 名 词 。 雅 虎 和 Facebook 等 公司 创建 和 使 用 的 
这 个 大 数据 平台 的 早期 版 本 ， 在 保护 其 存储 的 数据 方面 并 没有 花费 太 多 精力 。 实 际 上 也 没 
有 必要 这 么 做 ， 因 为 Hadoop 里 几乎 没有 什么 敏感 数据 ， 只 有 对 黑客 毫 无 吸引 力 的 状态 更 
新 和 新 闻 报道 。 而 且 ， 找 到 它们 也 不 需要 花费 很 多 精力 。 


然而 ， 当 这 种 平台 被 更 多 传统 企业 使 用 时 ， 便 开始 涉及 更 多 传统 企业 数据 。 金 融 交 易 、 个 
人 银行 账号 和 税务 信息 、 医 疗 记录 等 诸如 此 类 的 信息 ， 正 是 黑客 们 所 追逐 的 。Hadoop 如 
今 广泛 用 于 和 零售、 银行 和 医疗 保健 行业 ， 它 也 逐渐 引 来 了 小 偷 们 的 注意 。 


如 有 果 说 数据 是 有 吸引 力 的 目标 ， 那 么 大 数据 的 规模 和 吸引 力 都 是 最 大 的 。 与 之 前 的 任何 预 
处 理 系 统 相 比 ，Hadoop 能 从 更 多 地 方 收集 更 多 数据 ， 然 后 将 它们 结合 起 来 ， 用 更 多 方法 
进行 分 析 。Hadoop 正 是 通过 这 种 方式 创造 了 巨大 的 价值 。 


显然 , “Hadoop 安全 ”意义 重大 。 


本 书 的 两 位 作者 在 将 安全 概念 引入 Hadoop 平台 方面 做 出 过 突出 贡献 。 他 们 在 书 中 阐述 
了 Hadoop 从 早期 开放 的 消费 互联 网 时 代 到 现在 作为 敏感 数据 可 信 平 台 的 演变 历程 ， 回 
Bü f Hadoop 安全 的 历史 ， 既 涵盖 了 其 优点 和 演进 过 程 ， 也 涉及 了 新 的 业务 问题 。 身 份 
验证 、 加 密 、 密 钥 管理 和 商业 实践 在 内 的 诸多 主题 及 其 在 实际 环境 下 的 应 用 也 在 书 中 有 
详细 讨论 。 

10 年 前 ，Hadoop 被 Facebook 选 作 图 片 存储 软件 ， 它 发 展 到 今天 的 过 程 非常 有 趣 。 如 
今 ，Hadoop 为 数据 处 理 和 分 析 提 供 了 更 强 的 能 力 、 更 多 的 方法 、 更 大 的 规模 和 更 好 的 表 
现 。 因 此 ， 无 论 分 开 来 看 还 是 整体 观 之 ，Hadoop 也 需要 更 多 保护 。 


本 书 最 好 的 地 方 在 于 ， 不 仅仅 对 问题 进行 描述 ， 还 给 出 了 处 理 建议 。 它 能 清晰 并 且 详 细 
地 告诉 读者 ， 搭 建 和 使 用 Hadoop 的 资深 开发 者 们 如 何 安全 地 管理 大 数据 。 本 书 给 读者 
提供 了 如 何 使 用 一 一 并 且 安 全 地 使 用 一 一 这 个 先进 的 平台 以 分 析 、 处 理 和 理解 数据 的 最 
佳 建议 。 
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虽然 Apache Hadoop 仍然 是 一 个 相对 较 新 的 技术 ， 但 这 并 没有 限制 它 迅 速 地 被 业界 采用 ， 
并 爆发 式 地 出 现 了 很 多 相关 工具 ， 正 是 这 些 工 具 组 成 了 Hadoop 广阔 的 生态 系统 。 对 于 
Hadoop 用 户 ， 这 当然 是 个 令 人 振奋 的 时 代 。Hadoop 给 公司 带 来 了 前 所 未 有 的 增值 机 会 ， 
同时 也 给 负责 数据 访问 安全 和 系统 合 规 的 技术 人 员 带 来 了 很 多 挑战 。 目 前 ,已 经 有 丰富 的 
信息 能 够 帮助 使 用 Hadoop 构建 解决 方案 的 开发 者 ， 以 及 部 署 运 维 Hadoop 的 管理 员 。 然 
而 ， 关 于 如 何 设计 和 实现 Hadoop 安全 部 署 的 指导 信息 依然 匮乏 。 


本 书 全 面 而 深入 地 介绍 了 Hadoop 的 众多 安全 特性 ， 并 使 用 通用 的 计算 机 安全 概念 进行 组 
21, 95 1 章 是 介绍 性 内 容 ， 随 后 分 为 4 大 部 分 : 第 一 部 分 是 安全 架构 ， 第 二 部 分 是 验证 、 
授权 和 安全 审计 ， 第 三 部 分 是 数据 安全 ， 第 四 部 分 是 归纳 总 结 。 这 些 部 分 涵盖 了 从 设计 安 
全 架构 的 前 期 步骤 ， 到 实现 通用 的 安全 访问 控制 和 数据 保护 。 最 后 介绍 了 几 个 用 例 ， 融 合 
了 书 中 的 很 多 概念 。 


目标 读者 


本 书 的 目标 人 群 是 管理 大 数据 平台 安全 的 Hadoop 管理 员 ， 以 及 需要 在 大 型 企业 架构 中 设 
计 集 成 Hadoop 安全 规划 的 安全 架构 师 。 书 中 介绍 了 很 多 Hadoop 安全 概念 ， 包 括 验 证 、 授 
权 、 审 计 、 加 密 和 系统 架构 。 
第 1 章 是 对 贯穿 全 书 的 一 些 安全 概念 的 综述 ， 以 及 对 Hadoop 生态 系统 的 简介 。 如 果 刚 刚 
接触 Hadoop， 建 议 你 阅读 《Hadoop 技术 详解 》 和 《Hadoop 权威 指南》。 本 书 假设 读者 就 
悉 Linux、 计 算 机 网 络 以 及 一 般 的 系统 架构 知识 。 对 于 那些 在 保护 分 布 式 系统 安全 方面 没 
有 经 验 的 管理 员 ， 第 2 章 会 给 出 这 部 分 内 容 的 概述 。 有 经 验 的 安全 架构 师 如 果 不 想 回顾 这 
方面 知识 ， 可 以 跳 过 这 一 章 。 总 体 而 言 ， 本 书 不 要 求 读者 具备 编程 背景 ,而 尽量 将 内 容重 
点 集中 于 Hadoop 安全 在 架构 和 操作 方面 的 实现 。 


排版 约定 


本 书 使 用 以 下 排版 约定 。 
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。 楷体 


表示 新 术语 和 重点 强调 的 内 容 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 





和 关键 词 等 。 


。 加 粗 等 宽 字体 (constant 








width bold) 


表示 命令 以 及 其 他 需要 用 户 输入 的 文字 。 
。 等 宽 斜 体 (constant width italic) 
表示 这 些 值 应 该 杰 换 为 用 户 输 入 ， 或 根据 上 下 文 确定 。 


该 图 标 表示 提示 


该 图 标 表示 一 般 





该 图 标 表示 警告 





使 用 代码 示例 


或 建议 。 


性 说 明 。 


或 警示 。 


我 们 在 全 书 提供 了 配置 文件 ， 用 以 指导 读者 为 自己 的 Hadoop 环境 进行 安全 防护 。 这 些 
样 例 中 ， 可 供 下 载 的 版 本 链接 为 : https://github.com/hadoop-security/examples。 在 第 13 
章 ， 本 书 提供 了 设计 、 实 现 和 部 署 一 个 保存 网 页 快照 的 网 络 接口 的 完整 样 例 。 该 样 例 的 完 


整 源 代 码 以 及 关于 可 部 署 应 





用 的 Hadoop 集群 的 安全 配置 说 明 ， 都 可 以 在 GitHub 上 下 载 





(https://github.com/hadoop-security/kite-spring-hbase-example ) 。 


本 书 旨 在 帮助 读者 完成 自己 的 工作 。 通 常情 况 下 ， 如 果 书 中 包含 代码 样 例 ， 你 可 以 在 自己 
的 程序 和 文档 中 使 用 它们 ， 不 需要 联系 我 们 申请 授权 ， 除 非 需 要 直接 复制 相当 一 部 分 的 代 
码 。 例 如 ， 编 写 程序 时 ， 使 用 本 书 中 的 几 个 代码 片段 并 不 需要 申请 授权 ， 但 出 售 或 分 发 
O'Reilly 图 书 代 码 样 例 的 光盘 则 需要 获得 许可 ， 引 用 本 书 或 引用 样 例 解答 问题 不 需要 授权 ， 
但 将 本 书 的 大 量 样 例 代 码 纳入 产品 的 文档 则 需要 获得 许可 。 














我 们 不 强制 要 求 你 在 引用 本 











内 容 时 进行 声明 ， 但 如 果 你 这 么 做 ， 我 们 会 非常 感激 。 引 用 
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信息 通常 包括 书 名 、 作 者 、 出 版 社 和 ISBN， 如 : Hadoop Security by Ben Spivey and Joey 
Echeverria (O’Reilly). Copyright 2015 Ben Spivey and Joey Echeverria, 978-1-491-90098-7。 


若 你 认为 对 样 例 代码 的 使 用 需要 授权 ， 请 通过 这 个 邮箱 联系 我 们 : permissions @ oreilly.com, 


.® 。 

Safari Books Online 

。 Safari Books Online 是 应 运 而 生 的 数字 图 书馆 ， 它 同时 以 图 书 和 视 

Safari 频 的 形式 出 版 世界 顶级 技术 和 商业 作家 的 专业 作品 。 
技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创新 专家 等 ， 

都 将 Safari Books Online 作为 开展 调研 、 解 决 问题 、 学 习 和 认证 培训 的 首选 资源 。 
Safari Books Online 为 企业 、 政 府 、 教 育 和 个 人 提供 各 种 产品 组 合 和 灵活 的 定价 策略 。 
会 员 可 以 通过 搜索 ， 从 数据 库 中 访问 数 以 千 计 的 图 书 、 培 训 视频 和 正式 出 版 前 的 书稿 ， 这 
些 数 据 来 源 包括 O'Reilly Media, Prentice Hall Professional, Addison-Wesley Professional, 
Microsoft Press, Sams, Que, Peachpit Press, Focal Press, Cisco Press, John Wiley & Sons, 
Syngress, Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, 


Manning, New Riders, McGraw-Hill, Jones & Bartlett, Course Technology 等 。 要 了 解 Safari 
Books Online 的 更 多 信息 ， 请 访问 我 们 的 网 站 (http//www.safaribooksonline.com/) 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
XH: 


O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公 司 
我 们 为 本 书 提供 了 专门 网 页 ， 上 面 有 勘误 表 、 示 例 以 及 其 他 信息 。 可 以 通过 http:// 
bit.ly/hadoop-security 访问 该 网 页 。 本 书 中 文 版 勘误 可 到 http://www.ituring.com.cn/ 
book/1600 提交 。 
为 本 书 提供 建议 或 咨询 技术 问题 ， 请 发 邮件 到 pookquestions@oreilly.com。 
想 了 解 更 多 关于 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 
http://www.oreilly.com, 


我 们 的 其 他 联系 方式 如 下 : 
Facebook: http://facebook.com/oreilly 
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责 声 明 


感谢 你 阅读 本 书 。 虽 然 笔 者 试图 对 Hadoop 生态 系统 的 不 同安 全 特性 进行 解释 、 文 档 化 并 
给 出 建议 ， 但 这 并 不 表明 或 暗示 ， 使 用 这 些 特性 中 的 任何 一 个 将 获得 完全 安全 的 集群 。 从 
安全 角度 来 说 ， 无 论 使 用 什么 保护 机 制 ， 任 何 信息 系统 都 不 是 100% 安全 的 。 我 们 鼓励 对 
Hadoop 环境 进行 持续 的 安全 检查 ， 从 而 确保 可 能 达到 的 最 好 的 安全 状态 。 对 于 可 能 由 于 
使 用 本 书 中 任何 特性 所 造成 的 损坏 ， 笔 者 、O’Reilly 公司 及 人 民 邮 电 出 版 社 不 对 此 负责 。 
所 有 操作 ， 风 险 自 负 。 


电子 书 


扫描 如 下 二 维 码 ， 可 购买 本 书 电子 版 。 
























































2 
Till 





早 在 2003 年 ， 谷 歌 就 发 表 了 一 篇 论文 (http:/research.google.comy/archive/gfs.html) ， 阅 述 
了 基于 服务 器 集群 的 、 面 向 海 量 数 据 存储 的 可 扩展 系统 架构 ， 该 架构 称 为 谷歌 文件 系统 
(GFS)。 一 年 后 ， 谷 歌 发 表 了 另 一 篇 论文 (http://research.google.com/archive/mapreduce. 
html), ， 阅 述 了 一 个 名 为 MapReduce 的 编程 模型 。 该 模型 利用 GES 并 行 处 理 数据 ， 实 现 
了 处 理 程 序 在 数据 存储 处 的 本 地 化 运行 。 几 乎 同时 ，Doug Cutting 与 其 他 合作 者 也 在 搭建 
一 个 开源 的 网 络 候 虫 ， 如 今 这 个 工具 被 称 为 Apache Nutch (http://nutch.apache.org)。Nutch 
的 开发 者 们 意识 到 ，MapReduce 编程 模型 和 GES 是 很 完美 的 分 布 式 网 络 候 虫 构建 模块 ， 
于 是 他 们 着 手 实现 基于 这 两 个 项 目的 新 爬虫 版 本 。 这 些 组 件 后 来 从 Nutch 脱离 ， 并 组 成 了 
Apache Hadoop 项 目 。 围 绕 Hadoop 可 扩展 架构 形成 的 生态 系统 "允许 用 户 存储 和 处 理 所 有 
重要 的 事务 数据 ， 提 供 了 解决 问题 的 另 一 种 方法 。 

当 所 有 这 些 细 新 且 令 人 激动 的 处 理 、 存 储 数据 的 方法 在 Hadoop 生态 系统 中 被 广泛 使 用 时 ， 
使 用 单一 的 集中 式 集群 管理 这 些 PB 级 数据 明显 是 有 风险 的 。 成 百 上 千 的 服务 器 在 同一 个 
通用 应 用 栈 中 互 连 ， 给 如 何 保护 这 些 重要 资源 提出 了 很 多 难题 。 其 他 书籍 侧重 于 介绍 如 何 
编写 MapReduce 代码 、 如 何 设计 最 优 的 导入 框架 ， 以 及 如 何在 Hadoop 生态 系统 上 搭建 复 
杂 的 低 延 迟 处 理 系 统 ， 而 本 书 专注 于 讨论 在 Hadoop 的 安全 架构 下 ， 如 何 利用 众多 安全 特 
性 保护 上 述 所 有 事务 的 安全 性 。 


1.1 安全 概览 
开始 讨论 Hadoop 专 有 内 容 之 前 ， 有 必要 先 了 解 一 些 信息 安全 相关 的 关键 理论 和 术语 。 信 























































































































{È 1: Apache Hadoop 本 身 由 4 个 子 项 目 组 成 : HDFS, YARN, MapReduce 和 Hadoop Common。 然 而， 
Hadoop 生态 系统 、Hadoop 和 其 他 在 Hadoop 基础 上 创建 或 集成 的 相关 项 目 通常 均 被 简称 为 Hadoop。 
我 们 此 处 使 用 Hadoop 项 目 和 Hadoop 生态 系统 以 示 区 分 。 





























息 安 全 理论 的 核心 是 CIA 模型 ， 即 机 密 性 (confidentiality) 、 完 整 性 (integrity) 和 可 用 
性 (availability) 。 该 模型 的 这 3 个 组 件 是 高 层次 概念 ， 能 够 广泛 应 用 于 信息 系统 、 计 算 平 
台 以 及 (更 适用 于 本 书 的 ) Hadoop。 我 们 还 将 进一步 了 解 验证 、 授 权 和 审计 这 3 个 安全 计 
算 领 域 的 要 素 ， 并 将 在 全 书 深入 探讨 。 

虽然 CIA 模型 能 够 帮助 建立 一 些 信息 安全 原则 ， 但 需要 指出 的 是 ， 该 模型 并 
不 是 一 个 需要 严格 遵循 的 规范 。Hadoop 平台 的 安全 特性 既 有 可 能 涉及 多 个 
CIA 模型 组 件 ， 也 有 可 能 连 一 个 CIA 组 件 也 履 盖 不 到 。 























1.1.1 机 密 性 


机 密 性 这 个 安全 原则 强调 ， 信 息 只 应 该 被 期 望 的 接收 者 看 到 。 例 如 ， 假 设 Alice 通过 邮件 
向 Bob 发 送 了 一 封 信 ， 那 么 只 有 当 Bob 是 唯一 能 够 阅读 这 封 信 的 人 时 ， 才 能 认为 这 封 信 是 
机 密 的 。 尽 管 这 看 起 来 很 简单 ， 不 过 要 保证 机 密 性 ， 还 需要 几 个 重要 的 安全 概念 。 比 如 ， 
如 何 使 Alice 知道 她 发 送 的 信件 被 Bob 本 人 读 了 ? 如 果 Bob 本 人 读 了 信件 ， 他 如 何 确认 自 
己 所 读 的 信 是 Alice 本 人 发 的 ? 为 了 使 Alice 和 Bob 都 参与 机 密 信息 的 传递 ， 他 们 需要 持 
有 能 够 将 自己 和 其 他 人 区 别 开 来 的 唯一 身份 标识 。 此 外 ，Alice 和 Bob 需要 通过 一 个 身份 
验证 的 过 程 证 明 自 己 的 身份 。 身 份 和 验证 是 Hadoop 安全 的 核心 组 件 ， 这 部 分 将 在 第 5 章 
详细 介绍 。 

机 密 性 的 另 一 个 重要 概念 是 加 密 。 加 密 是 这 样 一 种 机 制 ， 它 将 数学 算法 应 用 于 信息 片段 ， 
使 加 密 后 的 输出 内 容 对 于 非 预 期 接收 者 不 可 读 。 只 有 期 望 的 接收 者 能 对 加 密 消 息 进行 解 
密 ， 从 而 得 到 原始 信息 。 数 据 加 密 有 两 种 方式 : 静态 加 密 和 动态 加 密 。 静 态 加 密 是 指 ， 数 
据 在 非 访问 状态 下 就 处 于 加 密 状态 。 例 如 ， 存 储 在 硬盘 上 的 加 密 文件 就 是 静态 加 密 的 一 个 
例子 。 动 态 加 密 也 称 在 线 加 密 ， 即 在 数据 通过 网 络 从 一 个 地 方 发 送 到 另外 一 个 地 方 时 进行 
加 密 。 两 种 加 密 方式 可 以 各 自 独立 使 用 ， 也 可 以 混合 使 用 。 第 9 章 将 介绍 Hadoop 的 静态 
加 密 ， 而 动态 加 密会 在 第 10 章 和 第 11 章 进 行 介绍 。 






































1.1.2 ”完整 性 


完整 性 是 信息 安全 的 重要 组 成 部 分 。 之 前 的 例子 中 ， 当 Alice 发 送信 件 给 Bob 时 ， 如 果 
Charles 在 Alice 和 Bob 毫 不 知情 的 情况 下 ， 于 传输 过 程 中 截获 了 信件 ， 并 对 其 内 容 进行 了 
修改 ， 这 会 怎样 呢 ? Bob 如 何 保证 他 接收 到 的 信件 和 Alice 发 送 的 是 完全 一 样 的 呢 ? 这 就 
是 数据 完整 性 的 概念 。 数 据 完整 性 是 信息 安全 的 关键 要 素 ， 尤 其 在 包含 高 度 敏感 数据 的 行 
业 中 。 设 想 一 下 ， 如 果 银 行 没 有 机 制 能 够 验证 客户 账户 余额 完整 性 ， 会 发 生 什 么 ?医院 没 
有 机 制 能 够 验证 病人 病历 完整 性 ， 又 会 发 生 什么 ?政府 没有 验证 情报 秘密 完整 性 的 机 制 ， 
可 能 会 发 生 什么 ”即使 机 密 性 得 到 保证 ， 但 完整 性 得 不 到 保证 的 数据 也 有 被 损坏 的 风险 。 
完整 性 将 在 第 9 章 和 第 10 章 讲 解 。 


1.1.3 可 用 性 


可 用 性 与 前 两 个 要 素 不 属于 同一 类 规范 。 机 密 性 和 完整 性 同 是 众所周知 的 安全 概念 ， 而 可 
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用 性 更 多 涉及 的 是 操作 准备 。 例 如 ， 如 果 Alice 试图 向 Bob 发 信 ， 但 邮局 关门 了 ， 那 么 信 
件 就 无 法 被 送 达 。 这 样 对 于 Bob 来 说 ， 信 件 就 是 不 可 用 的 。 数 据 或 服务 的 可 用 性 能 够 被 普 
通 的 行为 影响 ， 如 计划 内 的 停工 升级 或 应 用 安全 补丁 ， 同 时 也 可 能 被 诸如 分 布 式 拒绝 服务 
攻击 (DDoS) 等 安全 事件 影响 。《Hadoop 技术 详解 》 和 《Hadoop 权威 指南 》 介 绍 了 如 何 
对 高 可 用 性 进行 配置 ， 本 书 将 从 安全 视角 介绍 这 些 概念 ， 参 见 第 3 章 和 第 10 章 。 


1.1.4 验证、 授权 和 审计 


验证 、 授 权 和 审计 (通常 缩写 为 AAA) 指 计算 机 安全 领域 的 一 个 架构 模式 。 在 该 模式 中 ， 
使 用 服务 的 用 户 先 要 证 明 自己 的 身份 ， 然 后 根据 规则 被 授予 权限 ， 同 时 其 操作 被 记录 下 来 
留待 审计 。 与 AAA 紧密 相 联 的 一 个 概念 是 身份 。 身 份 是 指 系统 如 何 将 不 同 的 实体 、 用 户 
和 服务 区 分 开 来 ， 典 型 的 代表 是 一 个 任意 字符 串 ， 例 如 用 户 名 或 者 诸如 用 户 ID (UID) 的 
唯一 号 码 。 


深入 了 解 Hadoop 如 何 支持 身份 、 认 证 、 授 权 和 审计 之 前 ， 先 考虑 在 一 个 很 简单 的 情况 下 
运用 这 些 概 念 : 在 单 台 Linux 服务 器 上 使 用 sudo 命令 。 我 们 来 看 看 两 个 不 同 用 户 Alice 和 
Bob 进行 的 终端 会 话 。 在 这 台 服 务 器 上 ，Alice 的 用 户 名 是 alice，Bob 的 用 户 名 是 bob。 
如 示例 1-1 所 示 ，Alice 先 登 录 。 


示例 1-1 验证 和 授权 


$ ssh alice@hadoop01 

alice@hadoop01's password: 

Last login: Wed Feb 12 15:26:55 2014 from 172.18.12.166 
[alice@hadoop01 ~]$ sudo service sshd status 
openssh-daemon (pid 1260) is running... 

[alice@hadoop01 ~]$ 


示例 1-1 FA, Alice 通过 SSH 登录 ， 并 且 立 即 被 提示 输入 她 的 口令 。 她 的 用 户 名 / 口令 对 被 
用 于 在 /etc/passwd 密码 文件 中 验证 甚 登录。 完成 这 一 步 后 ，Alice 便 被 成 功 验证 了 用 户 名 
alice 的 身份 。Alice 的 下 一 步 是 使 用 sudo 命令 获得 sshd 服务 ， 这 需要 超级 用 户 的 权限 。 
这 个 命令 执行 成 功 ， 说 明 Alice 被 授权 可 以 执行 该 命令 。 对 于 sudo 命令 ， 控 制 哪些 用 户 能 
够 被 授予 超级 用 户 权限 的 规则 存储 在 /etc/sudoers 文件 中 ， 如 示例 1-2 所 示 。 






















































































示例 1-2  /etc/sudoers 


[root@hadoop01 ~]# cat /etc/sudoers 
root ALL = (ALL) ALL 

%wheel ALL = (ALL) NOPASSWD:ALL 
[root@hadoop01 ~]# 


示例 1-2 中 ， 用 户 root 被 授予 使 用 sudo 执行 任何 命令 的 权限 ， 用 户 组 wheel 被 授予 可 无 密 
码 使 用 sudo 执行 任何 命令 的 权限 。 这 个 例子 中 ， 系 统 的 验证 依赖 于 登录 ， 而 非 一 次 新 的 
验证 要 求 。 最 后 一 个 问题 是 ， 系 统 怎么 知道 Alice 是 wheet 用 户 组 的 一 员 呢 ? 在 UNIX 和 
Linux 系统 中 ， 这 通常 由 文件 /etc/group 控制 。 


现在 ， 我 们 知道 控制 Alice 的 身份 标识 的 有 两 个 文件 : /etc/passwd (示例 1-4) 和 /etc/ 
group (示例 1-3)。/etc/passwd 文件 为 她 的 用 户 名 分 配 一 个 特有 的 UID 和 主 目 录 ，/etc/ 

















group 文件 更 进一步 定义 了 系统 的 组 标识 以 及 用 户 和 组 的 从 属 关 系 。 这 些 身份 标识 信息 文 
件 会 在 执行 sudo 命令 时 用 到 ， 同 时 用 到 的 还 有 /etc/sudoers 文件 中 定义 的 权限 规则 ， 它 
们 用 于 验证 Alice 是 否 有 权限 执行 请 求 的 命令 。 





示例 1-3 /etc/group 


[root@hadoop01 ~]# grep wheel /etc/group 
wheel:x:10:alice 
[root@hadoop01 ~]# 


示例 1-4  /etc/passwd 


[root@hadoop01 ~]# grepalice /etc/passwd 
alice:x:1000:1000:Alice: /home/alice: /bin/bash 
[root@hadoop01 ~]# 


现在 看 看 示例 1-5 中 Bob 的 会 话 。 


示例 1-5 授权 失败 


$ ssh bob@hadoop01 

bob@hadoop01's password: 

Last login: Wed Feb 12 15:30:54 2014 from 172.18.12.166 
[bob@hadoop01 ~]$ sudo service sshd status 


We trust you have received the usual lecture from the local System 
Administrator. It usually boils down to these three things: 


#1) Respect the privacy of others. 
#2) Think before you type. 
#3) With great power comes great responsibility. 


[sudo] password for bob: 
bob is not in the sudoers file. This incident will be reported. 
[bob@hadoop01 -]$ 


本 示例 中 ，Bob 能 够 使 用 与 Alice 类 似 的 方法 进行 身份 验证 ， 但 当 他 试图 使 用 sudo 命令 
时 ， 遇 见 了 截然 不 同 的 状况 。 首 先 ，Bob 执行 命令 时 被 系统 再 次 要 求 输入 口令 ， 成 功 提交 
口令 后 ， 被 系统 拒绝 以 超级 用 户 的 权限 执行 该 service 命令 。 这 是 由 于 与 Alice 不 同 ，Bob 
不 是 wheel 组 的 成 员 ， 因 而 不 被 授权 执行 sudo 命令 。 


了 解 了 身份 、 验 证 和 授权 ， 我 们 再 来 关注 审计 。 对 于 用 户 与 诸如 SSH 和 sudo 等 安全 服务 
的 互动 行为 ，Linux 会 创建 一 个 名 为 /var/Log/secure 的 日 志文 件 。 该 文件 能 够 记录 一 个 账 
户 的 某 些 行为 ， 无 论 这 些 行为 成 功 还 是 失败 。 若 我 们 在 Alice 和 Bob 各 自 完 成 上 述 操作 后 
查看 该 日 志 ， 能 够 看 到 示例 1-6 所 示 的 输出 〈 按 照 方便 阅读 的 形式 组 织 )。 











示例 1-6 /var/log/secure 


[root@hadoop01 ~]# tail -n 6 /var/log/secure 

Feb 12 20:32:04 ip-172-25-3-79 sshd[3774]: Accepted password for 
alice from 172.18.12.166 port 65012 ssh2 

Feb 12 20:32:04 ip-172-25-3-79 sshd[3774]: pam_unix(sshd:session): 
session opened for user alice by (uid=0) 

Feb 12 20:32:33 ip-172-25-3-79 sudo: alice : TTY=pts/0 ; 





PWD=/home/alice ; USER=root ; COMMAND=/sbin/service sshd status 
Feb 12 20:33:15 ip-172-25-3-79 sshd[3799]: Accepted password for 
bob from 172.18.12.166 port 65017 ssh2 
Feb 12 20:33:15 ip-172-25-3-79 sshd[3799]: pam_unix(sshd:session): 
session opened for user bob by (uid=0) 
Feb 12 20:33:39 ip-172-25-3-79 sudo: bob : user NOT in sudoers; 
TTY=pts/2 ; PWD=/home/bob ; USER=root ; COMMAND=/sbin/service sshd status 
[root@hadoop01 ~]# 


对 于 Alice 和 Bob， 他 们 通过 SSH 成 功 登 录 的 事实 均 被 记录 下 来 ， 包 括 他 们 对 sudo 的 使 
用 记录 。Alice 的 例子 中 ， 系 统 记 录 了 她 成 功 使 用 sudo 以 root 权限 执行 了 /sbin/service 
sshd status 命令 。 而 Bob 的 例子 中 ， 系 统 则 记录 了 他 试图 以 root 权限 执行 /sbin/service 
sshd status 命令 ， 但 由 于 他 不 在 /etc/sudoer 用 户 组 里 ， 以 致 被 系统 拒绝 执行 。 


该 例子 展示 了 身份 、 验 证 、 授 权 和 审计 的 概念 如 何 运 用 在 相对 简单 的 单 台 Linux 服务 器 上 ， 
并 维持 系统 安全 。 这 些 概 念 将 在 第 二 部 分 的 Hadoop 相关 章节 中 了 予以 详细 阐述 。 


1.2 ”Hadoop 安 全 : 简 史 


Hadoop 在 存储 和 处 理 大 量 数 据 时 效率 很 高 ， 并 且 与 其 他 平台 相 比 更 经 济 。Hadoop 项 目 最 
初 的 关注 点 是 实际 的 技术 实现 ， 项 目 中 许多 代码 涵盖 的 逻辑 能 够 针对 分 布 式 系统 中 国有 的 
复杂 性 进行 处 理 ， 如 故障 处 理 与 协同 。 由 于 这 种 较 强 的 针对 性 ， 早 期 的 Hadoop 项 目 建立 
了 一 个 安全 立场 : 整个 机 器 集群 和 所 有 访问 它 的 用 户 都 是 可 信 网 络 的 一 部 分 。 这 实际 上 意 
RÆ, Hadoop 并 设 有 强 安全 策略 强制 执行 很 多 措施 。 

随 着 Hadoop 项 目的 发 展 ， 显 然 ， 至 少 应 当 有 一 个 机 制 能 够 对 用 户 身 份 进行 强 有 力 的 验 
UE. Kerberos 被 选 作 该 项 目的 这 种 机 制 ， 它 是 一 个 完善 的 协议 ， 如 今 广泛 应 用 于 Microsoft 
Active Directory 等 企业 系统 。 在 强 认 证 策略 之 外 ， 还 要 有 强 授权 策略 。 强 授权 策略 定义 了 
单个 用 户 被 认证 后 能 够 做 的 事情 。 起 初 ， 授 权 策 略 是 在 单个 组 件 上 实现 的 ， 这 意味 着 管理 
员 需 要 在 很 多 地 方 对 授权 控制 进行 定义 。 后 来 ， 在 仍 是 孵化 项 目的 Apache Sentry 中 ， 授 
权 机 制 终于 变 得 容易 了 一 些 。 但 就 像 我 们 将 在 第 6 章 和 第 7 章 中 看 到 的 一 样 ， 目 前 尚未 有 
一 个 能 在 整个 生态 系统 中 具有 整体 统筹 性 的 授权 机 制 。 

Hadoop 安全 的 另 一 个 仍 在 演变 的 方面 是 ， 通 过 加 密 和 其 他 机 密 性 机 制 进行 的 数据 保护 。 在 
可 信 网 络 中 ， 人 们 起 初 假 定数 据 本 来 就 是 被 保护 的 ， 不 会 被 非 授 权 用 户 访问 ， 因 为 只 有 授 
权 用 户 才 能 接 和 人 可 信 网 络 。 之 后 ，Hadoop 为 节点 间 的 数据 传输 添加 了 加 密 手段 ， 对 硬盘 
上 的 数据 存储 也 进行 了 加 密 。 在 后 续 的 讲解 中 ， 你 能 看 到 这 些 安全 策略 的 进化 是 如 何 产生 
的 ， 但 为 了 快速 入 门 ， 首 先 还 是 需要 关注 Hadoop 的 生态 系统 。 


1.3 Hadoop 组 件 和 生态 系统 


本 闻 ， 我 们 将 纵览 贯穿 全 书 的 Hadoop 生态 系统 的 各 个 组 件 ， 这 有 助 于 在 开始 讨论 组 件 的 
安全 之 前 先 了 解 它们 。 已 经 精通 下 列 组 件 的 读者 可 以 直接 跳 至 下 一 方 。 除 非 另外 声明 ， 本 
书 描述 的 安全 特性 适用 的 项 目 版 本 均 如 表 1-1 所 示 。 








































































































表 1-1: 项 目 版 本 





项 目 版 本 
Apache HDFS 2.3.0 
Apache MapReduce (for MR1) 1.2.1 
Apache YARN (for MR2) 2.3.0 
Apache Hive 0.12.0 
Cloudera Impala 2.0.0 
Apache HBase 0.98.0 
Apache Accumulo 1.6.0 
Apache Solr 4.4.0 
Apache Oozie 4.0.0 
Cloudera Hue 325.0 
Apache ZooKeeper 3.4.5 
Apache Flume 1.5.0 
Apache Sqoop 1.4.4 
Apache Sentry (Incubating) 1.4.0-incubating 


a 细心 的 读者 会 发 现 ， 上 述 列表 有 一 些 遗 漏 。 我 们 特意 没有 在 上 表 中 提 到 Apache Spark, Apache Ranger 和 
Apache Knox。 这 些 项 目 是 Hadoop 生态 系统 新 增 的 组 件 ， 由 于 时 间 的 限制 ， 我 们 在 这 里 忽略 了 它们 。 


1.3.1 Apache HDFS 


Hadoop 分 布 式 文 件 系 统 (HDFS) 通常 被 认为 是 Hadoop 生态 系统 中 其 余部 分 的 基础 。 
HDFS 是 Hadoop 的 存储 层 ， 在 系统 存储 容量 和 带宽 总 量 线性 增长 时 ， 能 够 对 海量 数据 进 
行 存储 。HDFS 是 能 够 跨越 多 个 服务 器 的 逻辑 文件 系统 ， 每 个 服务 器 都 可 有 多 块 硬盘 。 从 
安全 角度 理解 这 一 点 很 重要 ， 因 为 HDFS 中 的 某 个 文件 可 以 跨越 Hadoop 集群 中 的 多 个 或 
全 部 服务 器 。 这 意味 着 ， 客 户 端 与 某 文件 的 交互 有 可 能 需要 与 集群 中 的 每 一 个 节点 进行 通 
信 。HDFS 的 一 个 关键 实现 方法 是 ， 将 文件 分 解 成 块 (block) ， 这 使 得 前 述 的 交互 成 为 可 
能 。 每 一 个 文件 块 被 存储 在 集群 中 任何 节点 的 任何 物理 驱动 器 上 。 此 问题 较为 复杂 ， 我 们 
在 这 里 不 深入 讨论 ， 并 忽略 原理 部 分 的 细节 。 推 荐 有 兴趣 的 读者 阅读 《Hadoop 权威 指南 》。 
关键 的 安全 要 点 是 : HDFS 中 的 所 有 文件 都 被 分 解 为 块 ， 当 使 用 HDFS 的 客户 端 读 写 这 些 
文件 时 ， 需 要 通过 网 络 与 Hadoop 集群 中 的 所 有 服务 器 进行 通信 。 


HDFS 是 一 种 主 / 从 (head/worker) 架构 ， 由 两 个 基本 组 件 构 成 : NameNode ( 主 ) 和 
DataNode (从 )。 附 加 的 组 件 包括 JournalNode、HttpFS 和 NFS 网关。 


NameNode 
NameNode 负责 跟踪 HDFS 中 所 有 与 文件 相关 的 元 数据 ， 例 如 文件 名 、 块 位 置 、 文 件 许 
可 和 副本 。 从 安全 角度 需要 知悉 的 是 ， 那 些 读 写 文件 的 HDFS 客户 端 总 是 与 NameNode 
通信 的 。 此 外 ，NameNode 为 整个 Hadoop 生态 系统 提供 了 一 些 重要 的 安全 功能 ， 这 些 
内 容 将 在 之 后 进行 曾 述 。 
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DataNode 
DataNode 负责 在 HDFS 中 对 数据 块 进行 存储 和 读 取 。NameNode 会 告诉 正在 读 取 某 文 
件 的 HDFS 客户 端 ， 集 群 中 的 哪个 DataNode 拥有 客户 端 请 求 的 数据 。 向 HDFS 写 文件 
时 ， 客 户 端 向 一 个 由 NameNode 指定 的 DataNode 写 入 数据 块 。DataNode 由 此 建立 一 个 
通 向 其 他 DataNode 的 写 管道 ， 从 而 完成 基于 所 需 复 制 因 子 的 写 操作 。 


JournalNode 
JournalNode 是 HDFS 中 的 一 种 特殊 组 件 。HDFS 被 配置 为 高 可 用 性 (HA) 时 ， 
JournalNode 会 接管 NameNode ‘5 A HDFS 元 数据 信息 的 职责 。 集 群 通常 具有 奇数 个 
JournalNode (3 个 或 5 个 )， 用 以 确保 能 满足 对 仲裁 资源 的 要 求 (不 能 出 现 平局 )。 例 
如 ， 如 果 要 向 HDFS 写 入 一 个 新 文件 ， 该 文件 的 元 数据 会 被 写 入 每 一 个 JournalNode。 
当 多 数 JournalNode 成 功 写 入 该 信息 ， 发 生 的 改变 (SATA) 会 被 认为 是 有 效 的 。 
HDFS 客户 端 和 DataNode 不 会 直接 与 JournalNode 互动 。 

HttpFS 
HttpFS 是 HDFS 中 负责 向 客户 端 提供 与 NameNode 和 DataNode 连接 代理 的 组 件 。 该 代 
理 是 一 种 REST API， 它 允许 客户 端 一 一 无 需 与 HDFS 中 的 其 他 组 件 建立 直 连 一 一 通过 
代理 使 用 HDFS。HttpFS 在 某 些 集群 的 架构 中 将 会 是 关键 的 组 件 ， 稍 后 阐述 。 

NFS 网 关 
MARX, NFS 网 关 人 允许 客户 端 像 使 用 NFS 文件 系统 那样 使 用 HDFS。NFS 网 关 实 质 
上 是 一 个 帮助 客户 端 和 底层 HDFS 集群 间 进 行 NFS 协议 通信 的 守护 进程 。 与 HttpFS 很 
相似 ，NFS 网 关 位 于 HDFS 和 客户 端 之 间 ， 因 此 能 够 为 特定 的 集群 架构 提供 安全 边界 。 

KMS 
Hadoop 关键 管理 服务 ， 亦 作 KMS， 在 HDFS 的 静态 透明 加 密 功能 中 扮演 着 重要 角色 。 
它 的 功能 是 作为 HDFS 客户 端 、NameNode 和 关键 服务 之 间 的 中 间 人 ， 处 理 加 密 操作 ， 
如 解密 数据 加 密 密 钥 和 管理 加 密 区 密 钥 等 。 这 部 分 内 容 将 在 第 9 章 进行 详细 阐述 。 

















































































































1.3.2 Apache YARN 


随 着 Hadoop AY AH, MapReduce 即便 拥有 强大 功能 ， 也 明显 不 再 能 够 满足 新 的 用 例 需 求 。 
许多 问题 不 能 利用 MapReduce 的 编程 模型 轻易 解决 ， 人 们 需要 一 种 能 够 适应 新 处 理 模 型 
的 更 通用 的 框架 。Apache YARN 就 提供 了 这 种 能 力 。 其 他 处 理 框 架 如 Impala, Spark 等 ， 
也 将 YARN 用 作 它 们 的 资源 管理 框架 。 虽 说 YARN 提供 的 是 更 通用 的 资源 管理 框架 ， 但 
MapReduce 依然 是 运行 在 它 之 上 的 标准 应 用 。 这 种 运行 在 YARN 上 的 MapReduce 被 认为 
是 v2 版 ， 简 称 MR2。YARN 的 架构 由 以 下 几 部 分 组 成 。 
ResourceManager 
ResourceManager 守护 进程 负责 处 理应 用 提交 请 求 、 分 配 ApplicationMaster 任务 ， 以 及 
执行 资源 管理 策略 。 
JobHistory Server 
顾名思义 ，JobHistory Server 负责 跟踪 在 YARN 上 运行 的 所 有 作业 历史 ， 包 括 运行 时 
间 、 任 务 数量 、 写 入 HDFS 的 数据 量 等 作业 的 度量 。 

































































NodeManager 

NodeManager 守护 进程 负责 执行 YARN ÈZ (container) 中 作业 的 各 个 任务 ， 每 个 
任务 由 虚拟 内 核 (CPU 资源 ) fU RAM 资源 组 成 ， 并 可 以 按照 各 自 需 要 申请 一 定数 
量 的 虚拟 内 核 和 内 存 ， 甚 最 小 值 、 最 大 值 和 增幅 由 ResourceManager 定义 。 每 个 任务 
作为 独立 的 进程 在 各 自 的 JVM 中 运行 。NodeManager 的 一 个 重要 作用 是 ， 启 动 名 为 
ApplicationMaster 的 特殊 任务 ， 该 任务 负责 管理 指定 应 用 的 所 有 任务 状态 。YARN 将 
资源 管理 和 任务 管理 区 分 开 ， 这 样 每 个 作业 都 能 执行 各 自 的 ApplicationMaster， 从 而 能 
够 在 大 型 集群 中 更 好 地 扩展 YARN 应 用 。 











1.3.3 Apache MapReduce 


MapReduce 是 与 HDFS 相对 应 的 数据 处 理 部 分 ， 提供 最 基本 的 数据 批 处 理 机 制 。 在 
YARN 上 执行 的 MapReduce 常 被 称 为 MapReduce2 或 MR2， 人 们 以 此 区 分 基于 YARN 
的 MapReduce 和 独立 的 MapReduce 框架 (后 者 被 追加 命名 为 MRI), MapReduce 作业 
由 客户 端 提 交 给 MapReduce 框架 ， 然 后 在 HDFS 中 的 一 个 数据 子 集 (通常 是 一 个 特定 目 
K) 上 执行 。MapReduce 自身 也 是 一 个 编程 模型 ， 允 许多 个 服务 器 并 行 、 独 立地 处 理 数 据 
Hk, tA Hadoop 开发 者 需要 了 解 MapReduce 复杂 的 工作 原理 ， 但 安全 架构 师 多 半 不 需要 
了 解 这 些 。 后 者 需要 知道 的 是 ， 客 户 端 提 交 作 业 到 MapReduce 框架 ， 并 且 从 那 之 后 ， 由 
MapReduce 框架 负责 客户 代码 在 集群 之 间 的 分 发 和 执行 。 客 户 端 不 需要 与 集群 的 任何 节点 
进行 交互 以 执行 作业 ， 而 是 作业 本 身 会 申请 运行 一 定数 量 的 任务 (task) 完成 其 工作 。 依 
据 MapReduce 框架 的 调度 算法 ， 每 个 任务 会 被 分 配 到 一 个 节点 运行 。 


“MapReduce 框架 在 指定 服务 器 上 建立 的 各 个 任务 以 什么 用 户 身份 执 
行 "， 这 取决 于 Kerberos 是 否 开 启 。 如 果 Kerberos 没有 开启 ， 每 个 任务 都 
会 以 mapred 系统 用 户 的 身份 执行 。Kerberos 开启 时 ， 各 个 任务 会 以 提交 
MapReduce 作业 的 用 户 身 份 执行 。 但 即便 开启 了 Kerberos， 当 另外 一 个 组 件 
或 工具 正在 提交 MapReduce 作业 时 ， 可 能 无 法 立刻 看 出 哪个 用 户 在 执行 该 作 
业 下 的 MapReduce 任务 。 涉 及 Hive 身份 模拟 的 相关 细节 讨论 参见 5.2.4 节 。 










































































与 HDFS 类 似 ，MapReduce 也 是 一 个 主 / 从 式 架 构 ， 包 括 两 个 主要 部 分 。 


JobTracker ( 主 ) 
客户 端 向 MapReduce 框架 提交 作业 时 ， 与 客户 端 进行 通信 的 其 实 是 JobTracker。 
JobTracker 负责 处 理 客 户 端的 作业 提交 ， 并 且 决 定 作业 应 该 如 何 按照 设 定好 的 方式 运 
行 ， 例 如 作业 需要 多 少 任务 、 哪 个 TaskTracker 负责 哪个 任务 等 。 另 外 ，JobTracker 还 
负责 处 理 安全 和 运行 相关 的 功能 ， 例 如 作业 队列 、 调 度 池 ， 以 及 用 于 验证 的 访问 控制 表 
等 。 最 后 ，JobTracker 还 负责 处 理 作 业 的 度量 和 其 他 相关 信息 ， 这 些 信息 在 作业 执行 的 
过 程 中 会 被 各 种 TaskTracker 发 送 给 JobTracker, JobTracker 包括 资源 管理 和 任务 管理 两 
部 分 ， 这 两 部 分 在 MR2 中 被 ResourceManager 和 ApplicationMaster 分 隔 开 。 





















































TaskTracker (从 ) 
TaskTracker 负责 执行 一 个 MapReduce 作业 中 的 给 定 任 务 。TaskTracker 从 JobTracker 
接收 要 运行 的 任务 ， 并 为 每 个 运行 的 任务 生成 独立 的 JVM 进程 。TaskTracker 既 执 行 
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map 任务 ， 也 执行 reduce 任务 ， 有 具体 可 以 并 发 执行 多 少 个 任务 取决 于 MapReduce 的 
配置 。 从 安全 角度 看 ， 其 要 点 是 ，JobTracker 决定 运行 什么 任务 以 及 任务 运行 在 哪些 
TaskTracker 上 。 通 常 的 作业 执行 过 程 中 ， 客 户 端 既 不 能 控制 任务 如 何 分 配 ， 也 不 与 
TaskTracker 进行 任何 通信 。 
关于 MapReduce 的 一 个 要 点 是 ， 其 他 的 Hadoop 生态 系统 组 件 都 是 建立 在 MapReduce 
之 上 的 框架 和 库 。 这 意味 着 ， 虽 然 MapReduce 负责 实际 的 数据 处 理 ， 但 这 些 框架 和 库 
将 MapReduce 的 作业 执行 从 客户 端 中 抽象 出 来 。Hive、Pig、Sqoop 组 件 都 这 样 使 用 
MapReduce。 














Hadoop 中 ， 用 户 审计 的 一 个 重要 部 分 就 是 理解 MapReduce 作业 是 如 何 提交 
的 ， 有 具体 细节 参 5.2.3 节 “ 块 访问 令 牌 ”部 分 。 从 安全 角度 看 ， 同 样 是 使 用 
MapReduce， 用 户 提交 自己 的 Java MapReduce 代码 与 使 用 Sqoop 从 RDBMS 
导入 数据 或 在 Hive 中 执行 SQL 查询 相 比 ， 是 完全 不 同 的 活动 。 














1.3.4 Apache Hive 


Apache Hive 项 目 最 早 由 Facebook 发 起 。Facebook 看 到 了 MapReduce 的 实用 性 ， 但 也 发 
Bb, DITA REZ Java 编程 技能 ， 导 致 MapReduce 框架 的 适用 性 大 打折 扣 。 由 于 大 部 分 
Facebook 分 析 人 员 具 备 SQL 技能 ， 因 此 Facebook 发 起 了 Hive 项 目 ， 使 用 MapReduce 作 
为 执行 引擎 的 SQL 抽象 层 。Hive 架构 由 以 下 几 部 分 组 成 。 
Metastore 数据 库 
Metastore 数据 库 是 一 个 包含 所 有 Hive 元 数据 (例如 库 、 表 、 列 、 数 据 类 型 等 信息 ) 的 
关系 型 数据 库 。 这 种 信息 在 访问 HDFS 时 将 数据 结构 化 ， 也 被 称 为 “ 读 模 式 ”(schema 


on read) 。 





Metastore Server 
Hive Metastore Server 是 处 于 Hive 客户 端 和 Metastore 数据 库 之 间 的 一 个 守护 进程 ， 它 
提供 了 一 个 安全 层 ， 防 止 客户 端 拥有 HiveMetastore 的 数据 库 凭证 。 
HiveServer2 
HiveServer2 是 客户 端 使 用 Hive JEA H. HiveServer2 兼容 JDBC 和 ODBC 客户 端 ， 
因此 被 很 多 客户 端 工具 和 其 他 第 三 方 应 用 使 用 。 
HCatalog 
Hcatalog 是 一 系列 帮助 非 Hive 框架 访问 Hive 元 数据 的 库 。 例 如 Pig 用 户 可 以 用 
Hcatalog 读 取 与 HDFS 中 给 定 目录 相关 的 模式 信息 。WebHCat Server 是 一 个 向 客户 端 提 
供 REST 接口 的 守护 进程 ， 使 客户 端 能 够 访问 HCatalog 的 API。 


如 果 想 全 面 了 解 Hive， 可 以 阅读 《Hive 编程 指南 》。 


















































1.3.5 Cloudera Impala 


Cloudera Impala 是 一 个 大 规模 并 行 处 理 (Massive Parallel Processing, MPP) 框架 ， 专 门 为 





了 分 析 型 SQL (Analytic SQL) 而 建立 。Impala 从 HDFS 读 取 数 据 ， 并 利用 Hive Metastore 

解析 数据 结构 和 数据 格式 。Impala 架构 由 以 下 几 部 分 组 成 。 

Impala 守护 进程 (impalad) 
Impala 守护 进程 负责 数据 处 理 中 的 所 有 繁重 任务 ， 这 些 服 务 与 HDFS DataNode 相配 合 ， 
以 优化 本 地 读 取 。 

StateStore 
StateStore 服务 保存 所 有 正在 运行 的 Impala 守护 进程 的 状态 信息 。 它 监视 Impala 守护 进 
程 的 状态 是 开启 还 是 关闭 ， 并 向 所 有 服务 广播 该 状态 。StateStore 并 不 是 Impala 架构 中 
必需 的 组 件 ， 但 它 可 以 在 一 个 或 多 个 服务 宕 掉 时 提供 更 快 的 容错 能 

Catalog Server 
Catalog Server 是 从 Impala 到 Hive Metastore 的 入 口 。 该 进程 负责 从 Hive Metastore 获取 
元 数据 ， 以 及 对 Impala 客户 端 修改 过 的 元 数据 进行 同步 。 有 一 个 独立 的 Catalog Server 
既 能 够 降低 Hive Metastore Server 的 负载 ， 也 能 够 为 Impala 额外 提供 速度 优化 。 














接触 Hadoop 生态 系统 的 新 用 户 经 常会 本，Hive 和 Impala 都 提供 对 HDFS 数 
据 的 SQL 访问 能 力 ， 那 它们 的 区 别 是 什么 ? Hive 让 熟悉 SQL 的 人 在 不 需要 
对 MapReduce 进行 任何 了 解 的 前 提 下 访问 HDFS 数据 ， 它 的 设计 目标 是 对 
MapReduce 的 内 部 结构 进行 抽象 ， 从 而 使 得 访问 HDFS 数据 更 加 容易 ， 广 
泛 应 用 于 批 处 理 和 ETL (Extract-Transform-Load， 即 数据 的 抽取 、 转 换 、 加 
载 ) 工作 ;而 Impala 则 是 自 底 向 上 设计 的 快速 分 析 型 处 理 引 擎 ， 支 持 即 席 
查询 和 商业 智能 (business intelligence, BI) 工具 。Hive 和 Impala 都 很 实用 ， 
应 当 视 为 互补 组 件 。 

















如 果 想 全 面 了 解 Inpala， 请 参考 Getting Started with Impala, 


1.3.6 Apache Sentry 


Sentry 组 件 (MRE) 为 其 他 生态 系统 组 件 (如 Hive, Impala 等 ) 提供 细 粒 度 角色 访问 控 
制 (role-based access control，RBAC) 。 虽 然 各 个 组 件 可 能 会 有 自己 的 验证 机 制 ， 但 Sentry 
在 各 个 组 件 之 间 提 供 了 一 个 支持 强制 集中 策略 的 统一 验证 机 制 。Sentry 是 Hadoop 安全 的 
一 个 重要 组 件 ， 我 们 将 用 整整 一 章 介绍 它 (第 7 章 )。Sentry 由 以 下 几 部 分 组 成 。 





Sentry Server 
Sentry server 是 一 个 守护 进程 ， 方 便 查找 其 他 Hadoop 生态 系统 组 件 产 生 的 策略 。Sentry 
的 客户 端 组 件 会 根据 Sentry 置 人 的 策略 继承 验证 决策 。 

策略 库 
Sentry 策略 库存 储 所 有 验证 策略 。Sentry Server 根据 策略 库 决 定 一 个 用 户 的 特定 操作 是 
否 被 允许 。 有 具体 来 说 就 是 ，Sentry Server 会 为 用 户 寻 找 一 个 匹配 的 策略 ， 以 授予 其 对 
资源 的 访问 权限 。 早 期 版 本 的 Sentry 中 ， 策 略 库 仅 是 一 个 包含 所 有 策略 的 文本 文件 。 
Sentry 和 策略 库 的 发 展会 在 第 7 章 详细 讨论 。 
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1.3.7 Apache HBase 


Apache HBase 是 分 布 式 键 / 值 存储 ， 由 谷歌 的 BigTable 论文 “BigTable: A Distributed 
Storage System for Structured Data” 局 发 而 来 。HBase 通常 使 用 HDFS 作为 数据 的 底层 存储 
层 ， 结 合 本 书 要 讨论 的 内 容 ， 我 们 假定 书 中 提 到 的 HBase 均 为 这 种 情况 。HBase 表 被 划分 
到 不 同 区 域 ， 这 些 区 域 根据 行 键 (row key， 键 值 的 索引 部 分 ) 进行 分 隔 。 行 ID 是 顺序 排 
列 的 ， 所 以 一 个 指定 的 区 域 具有 一 系列 顺序 的 行 键 。 区 域 由 RegionServer 存放 ， 客 户 端 使 
用 键 值 从 RegionServer 请 求 数据 。 键 值 包括 几 个 部 分 : 行 键 、 列 族 (column family)、 列 
限定 符 (column qualifier) fH E 〈timestamp)。 这 些 部 分 组 合 起 来 能 够 唯一 地 确定 存 
储 在 表 中 的 一 个 值 。 

客户 端 访问 HBase 时， 首先 通过 搜索 hbase:meta 表 查找 负责 存放 特定 范围 行 键 的 
RegionServer。 找 到 正确 的 RegionServer 后 ， 客 户 端 会 直接 向 该 RegionServer 发 起 读 写 请 求 ， 
而 不 是 通过 Master 发 起 。 客 户 端 会 缓存 RegionServer 的 区 域 映 射 ， 以 避免 重复 的 查询 过 程 。 
存放 hbase:meta 表 的 服务 器 位 置 可 以 在 ZooKeeper 中 查 到 。HBase 包括 以 下 几 部 分 。 


Master 
正如 之 前 提 到 的 ，HBase Master 守护 进程 负责 管理 哪个 区 域 由 哪个 RegionServer 存放 。 
如 果 某 个 RegionServer 宕 掉 ，HBaseMaster 也 要 负责 将 它 存放 的 区 域 重 新 分 配给 其 他 
RegionServer。 多 个 HBaseMaster 可 以 并 行 运行 ， 在 任意 时 刻 ， 它 们 会 通过 ZooKeeper 
选择 一 个 HBaseMaster 保持 活跃 。 


RegionServer 
RegionServer 负责 为 指定 的 HBase 表 提 供 区域 。 区 域 是 一 系列 特定 范围 的 键 值 ， 这 些 键 
值 既 可 以 通过 HBase 控制 台 人 工 确 定 ， 也 可 以 由 HBase 根据 曾经 存 人 表 的 键 值 自动 确 
定 。HBase 的 一 个 目标 是 平均 分 配 键 值 空间 ， 使 每 个 RegionServer 具有 同等 的 提供 数据 
的 责任 。 每 个 RegionServer 通常 存放 着 多 个 区 域 。 


REST Server 
HBase REST Server 提供 执行 HBase 指令 的 REST API。 和 Hadoop 生态 系统 中 的 许多 其 
他 项 目 一 样 ， 默 认 的 HBase API 是 用 Java API 提供 的 。REST API 通常 被 用 作 一 种 独立 
于 编程 语言 的 接口 ， 使 客户 端 能 够 使 用 任何 他 们 想 用 的 编程 语言 。 

Thrift Server 
除 REST Server 之 外 ，HBase 还 有 一 个 Thrift Server， 它 为 客户 端 提供 了 另外 一 种 可 用 
的 API 接口 。 


要 想 了 解 更 多 HBase 架构 和 最 适用 的 用 例 ， 推 荐 阅读 《HBase 权威 指南 》。 















































































































































1.3.8 Apache Accumulo 


Apache Accumulo (http://accumulo.apache.org) 是 一 个 排序 分 布 式 的 键 / 值 存储 ， 一 个 健 
壮 的 、 可 扩展 的 、 高 性 能 的 存储 和 检索 系统 。 与 HBase 类 似 ，Accumulo 起 初 也 是 基于 
Google BigTable 设计 的 ， 但 它 建 立 在 Apache Hadoop 生态 系统 (尤其 是 HDFS、ZooKeeper 
和 Apache Thrift) Z E. Accumulo 使 用 的 数据 模型 和 HBase 大 体 一 致 ， 每 个 Accumulo 




















表 被 分 成 一 个 或 多 个 块 ， 每 个 块 包含 基本 相同 数量 的 记录 ， 这 些 记录 根据 行 ID 分 配 。 每 
个 记录 也 有 一 个 由 多 部 分 组 成 的 列 键 ， 包 括 列 族 、 列 限定 符 和 一 个 可 见 性 标签 (visibility 
label) 。 可 见 性 标签 是 Accumulo 与 原始 BigTable 设计 最 大 的 不 同 点 之 一 ， 它 增加 了 实现 单 
元 级 安全 的 能 力 (我 们 将 会 在 第 6 章 详细 讨论 )。 最 后 ， 每 个 记录 也 包含 一 个 时 间 惟 ， 使 
用 户 可 以 存储 多 个 版 本 的 记录 。 如 果 没 有 时 间 戳 ， 这 些 不 同 版 本 的 记录 的 键 值 将 相同 。 综 
上 , 行 ID、 列 和 时 间 惟 组 成 了 确定 一 个 特定 记录 的 键 值 。 


块 的 分 配 以 分 割 行 ID 集合 的 方式 进行 ， 分 割 点 在 数据 被 插入 表 时 自动 计算 。 每 个 块 由 一 
个 负责 在 该 块 中 提供 数据 读 写 服务 的 TabletServer 存放 ， 每 个 TabletServer 可 以 存放 来 自 一 
个 或 多 个 表 的 多 个 块 ， 所 以 块 是 系统 中 的 分 配 单元 。 


客户 端 第 一 次 访问 Accumulo 时 ， 会 查找 存放 accumuto.root 表 的 TabletServer 位 置 ， 
accumulo. root 表 保 存 着 accumulo.meta 如 何 被 分 割 到 块 的 信息 。 客 户 端 会 直接 与 存放 
accumulo.root 的 TabletServer 通信 ， 然 后 再 与 存放 accumulo.meta 表 数 据 块 的 TabletServer 
通信 。 由 于 这 些 表 中 (尤其 是 accumulo.root 中 ) 数据 的 改变 频率 与 其 他 数据 相 比 相对 
较 少 ， 所 以 客户 端 会 保存 一 个 从 这 些 表 读 取 的 数据 块 位 置 的 缓存 ， 以 避免 读 写 管道 中 的 
页 须 。 一 旦 客户 端 知道 了 它 正 在 读 / 写 的 行 ID 所 属 的 数据 块 位 置 ， 它 就 会 直接 与 对 应 的 
TabletServer 通信 。 客 户 端 在 任何 时 候 都 不 会 与 Master 通信 ， 这 一 点 在 很 大 程度 上 保证 了 
可 扩展 性 。 总 体 来 说 ，Accumulo 包含 以 下 几 部 分 。 
Master 
Accumulo Master 负责 协调 分 配 数据 块 到 TabletServer， 保 证 每 个 块 被 存放 在 唯一 的 
TabletServer 中 ， 并 对 TableServer 失效 等 事件 进行 响应 。 它 还 负责 表 的 管理 性 更 改 以 及 
协调 启动 、 关 闭 和 写 前 日 志 的 恢复 。 多 个 Master 可 以 同时 和 运行， 它们 会 选 出 一 个 领导 
者 ， 从 而 使 每 个 时 刻 只 有 一 个 Master 处 于 活跃 状态 。 
TabletServer 
TabletServer 负责 处 理 对 Accumulo 集群 中 数据 块 子 集 的 所 有 读 写 请 求 。 就 写 操作 而 
言 ， 它 负责 周期 性 地 将 记录 写 入 写 前 日 志 ， 并 将 内 存 中 的 记录 写 入 磁盘 。 恢 复 过 程 中 ， 
TabletServer 将 写 前 日 志 中 的 记录 回放 到 要 恢复 的 数据 块 。 


GarbageCollector 
GarbageCollector 周期 性 地 删除 Accumulo 进程 不 再 需要 的 文件 。 多 个 GarbageCollectors 
可 以 同时 运行 ， 它 们 会 选择 一 个 领导 者 ， 从 而 使 每 个 时 刻 只 有 一 个 GarbageCollector 处 
于 活跃 状态 。 


Tracer 
Tracer 监控 集群 中 使 用 Accumulo 分 布 式 定时 API 的 其 他 部 分 ， 并 将 这 些 数据 写 入 一 个 
Accumulo 表 ， 以 备 后 用 。 多 个 Tracer 可 以 同时 运行 ， 它 们 会 平均 分 配 负 载 。 

Monitor 
Monitor 是 一 个 用 于 监控 Accumulo 集群 状态 的 Web 应用， 展示 了 记录 数量 、 缓 存 命 中 
率 /未 命中 率 等 关键 度量 值 ， 以 及 扫描 率 等 数据 表 信 息 。Monitor 还 充当 了 日 志 转 发 节 
点 的 角色 ， 使 用 户 可 以 通过 单一 接口 诊断 错误 和 警告 信息 。 
















































































































































































1.3.9 Apache Solr 


Apache Solr 项 目 又 称 SolrCloud, ， 能 够 对 分 散 于 不 同 物理 服务 器 的 文档 (作为 更 大 数据 集 
合 的 一 部 分 ) 进行 搜索 和 检索 。 搜 索 是 大 数据 的 经 典 用 例 之 一 ， 也 是 任何 人 访问 互联 网 都 
会 用 到 的 最 常见 的 功能 。Solr 建立 在 Apache Lucene MAZE, H Lucene 实际 负责 大 部 分 
的 检索 和 搜索 工作 。Solr 提供 逐 级 导航 (faceted navigation) 、 高 速 缓存 、 命 中 字 高 亮 显 示 、 
管理 接口 等 企业 级 功能 ， 以 对 这 些 能 力 进行 扩展 。 

Solr 是 一 个 单独 的 组 件 ， 即 Server。 一 个 部 署 环 境 中 可 以 有 多 个 Solr Server， 并 通过 


SolrCloud 提供 的 分 片 机 制 线性 扩展 。SolrCloud 还 提供 了 自我 复制 功能 ， 以 应 对 分 布 式 环 
境 中 的 故障 。 
































1.3.10 Apache Oozie 


Apache Oozie 是 一 个 Hadoop 工作 流 和 业务 流 管理 系统 。 它 可 以 建立 包含 多 个 动作 的 工作 
流 ， 每 个 动作 可 以 使 用 Hadoop 生态 系统 中 的 不 同 组 件 。 例 如 ， 一 个 Oozie 工作 流 可 以 首 
先 执 行 一 个 Sqoop 导入 动作 ， 将 数据 移入 HDFS; 然后 执行 一 个 Pig 脚本 ， 对 数据 进行 转 
换 ， 之 后 再 用 一 个 Hive 脚本 建立 元 数据 结构 。Oozie 支持 多 个 复杂 的 工作 流 ， 例 如 使 用 分 
X (fork) 和 连接 (join) 动作 可 以 并 行 执行 多 个 步骤 ， 或 者 执行 依赖 于 多 个 步骤 完成 之 后 
才能 继续 的 其 他 步骤 。Oozie 工作 流 可 以 根据 不 同 输入 条 件 ， 按 照 周 期 性 的 计划 运行 ， 例 
如 在 特定 时 间 运 行 ， 或 者 等 待 HDFS 中 某 个 路 径 存 在 后 运行 。 


Oozie 只 有 一 个 服务 组 件 ， 该 服务 负责 处 理 客户 端的 工作 流 提 交 、 管 理工 作 流 的 执行 以 及 
状态 报告 。 












































1.3.11 Apache ZooKeeper 

Apache ZooKeeper 分 布 式 协同 服务 允许 分 布 式 系统 同步 存储 和 读 取 小 量 数据 ， 常 用 于 存储 
通用 配置 信息 。 此 外 ，ZooKeeper 还 经 常用 于 同步 Hadoop 系统 中 的 高 可 用 性 服务 ， 例 如 
元 数据 节点 HA 和 资源 管理 HA。 

ZooKeeper 本 身 也 是 一 个 分 布 式 系统 ， 它 通过 奇数 个 ZooKeeper Ensemble 服务 器 的 仲裁 ， 
确认 下 发 的 事务 。ZooKeeper 只 有 一 个 组 件 ， 即 ZooKeeper Server。 








1.3.12 Apache Flume 


Apache Flume 是 一 个 基于 事件 的 数据 导入 工具 ， 主 要 用 于 将 数据 导入 Hadoop， 也 可 完全 
独立 使 用 。Flume 的 意思 是 槽 ， 顾 名 思 义 ， 其 作用 是 将 事件 日 志 导 入 HDFS。Flume 框架 
主要 由 三 部 分 组 成 : 数据 源 (source)、 数 据 阱 (sink) 和 通道 (channel) 。 


Flume 的 数据 源 定义 了 应 当 如 何 从 上 游 提 供 者 读 取 数据 。 读 取 流 程 可 能 包括 syslog 服务 器 、 
JMS 队列 ， 甚 至 轮 询 某 个 Linux 目录 等 。Flume 数据 阱 定义 了 数据 应 当 如 何 被 写 入 下 游 。 通 
用 的 数据 阱 包括 一 个 HDSF 阱 节点 和 一 个 HBase BEG. Bela, Flume 通道 定义 了 数据 在 
源 和 阱 之 间 是 如 何 被 存储 的 。 最 基本 的 两 种 通道 是 内 存 通道 和 文件 通道 。 内 存 通道 通过 牺 
牲 一 定 的 可 靠 性 实现 高 速 传输 ， 文 件 通道 则 通过 牺牲 一 定 的 传输 速度 提供 较 高 的 可 靠 性 。 




















Flume 中 只 有 一 个 组 件 ， 即 Flume Agent, Agent 包含 数据 源 、 数 据 阱 和 通道 的 代码 。Flume 
架构 的 一 个 重要 特性 是 : Flume Agent 之 间 能 够 互联 ， 即 某 个 Agent 的 数据 阱 能 够 与 另 一 个 
Agent 的 数据 源 连通 。 这 种 情况 下 的 一 个 通用 接口 是 Avro 源 和 阱 。Flume 数据 导入 和 安全 将 
在 第 10 章 介 绍 ， 也 可 翻阅 Using Flume (http://shop.oreilly.com/product/0636920030348.do) , 


1.3.13 Apache Sqoop 


Apache Sqoop 提供 了 在 传统 RDBMS 以 及 其 他 数据 源 (如 FIP 服务 器 ) 中 批量 导入 /导出 
数据 的 功能 。Sqoop 自身 通过 提交 map-only 的 MapReduce 任务 ， 与 RDBMS 进行 并 行 交 互 。 
Sqoop 既 可 作为 初始 化 Hadoop 集群 数据 的 一 种 简单 机 制 ， 也 可 以 是 进行 常规 数据 导入 /导出 
工作 的 一 种 工具 。 目 前 有 两 种 不 同 版 本 的 Sqoop: Sqoopl 和 Sqoop2。 本 书 重 点 讲解 Sqoop1。 
Sqoop2 在 本 书写 作 之 时 尚未 完善 ， 并 且 缺 乏 一 些 基 本 的 安全 特性 ， 如 Kerberos 身份 验证 。 
Sqoopl 是 由 使 用 sqoop 程序 的 命令 行 衍生 的 一 系列 客户 端 库 。 这 些 客户 端 库 负 责 实 际 
的 MapReduce 作业 提交 ， 即 将 作业 提交 到 合适 的 框架 〈 例 如 传统 的 MapReduce 或 者 基 
于 YARN 的 MapReduce2)。Sqoop 的 详细 讨论 参见 第 10 章 ， 也 可 翻阅 Apache Sqoop 
Cookbook (http://shop.oreilly.com/product/0636920029519.do)。 












































1.3.14 Cloudera Hue 


Cloudera Hue 是 一 个 Web 应用， 将 许多 Hadoop 生态 系统 组 件 友 好 地 暴露 给 用 户 。Hue È 
许 用 户 无 需 熟 悉 Linux 或 者 各 种 命令 行 接口 ， 就 可 轻松 访问 Hadoop 集群 。Hue 拥有 一 些 
不 同 的 安全 控制 策略 ， 这 些 将 在 第 12 章 讲 到 。Hue 由 如 下 组 件 组 成 。 
Hue Server 
Hue Server 是 Hue 的 主要 组 件 ， 它 实质 上 是 一 个 向 用 户 提 供 网 页 内 容 的 Web 服务 。 用 
户 第 一 次 登录 时 需要 进行 验证 ， 之 后 ， 终 端 用 户 执行 的 动作 实质 上 是 由 Hue 代理 用 户 
完成 的 。 这 就 是 第 5 章 将 介绍 的 身份 模拟 (impersonation) ) 。 
Kerberos Ticket Renewer (Kerberos 票据 更 新 器 ) 
顾名思义 ， 该 组 件 负责 周期 性 地 更 新 Kerberos 的 票据 授予 票据 (ticket-granting ticket , 
TGT), ft Hadoop 集群 启用 Kerboros 的 前 提 下 ， 该 票据 被 Hue 用 于 与 Hadoop 集群 进 
行 交 互 (第 4 章 对 Kerberos 有 详细 阐述 )。 


1.4 小 结 


本 章 介绍 了 一 些 常见 的 安全 术语 ， 这 些 安全 术语 是 本 书 其 他 内 容 的 基础 。 阅 读本 章 的 一 个 
关键 收获 是 ， 读 者 能 够 认识 到 ，Hadoop 安全 并 非 那么 难以 理解 。 传 统 可 靠 的 安全 准则 (如 
CIA 和 AAA) 在 Hadoop 环境 中 同样 适用 ， 这 些 会 在 后 面 的 章节 中 详细 讨论 。 最 后 ， 我 们 
回顾 了 很 多 Hadoop 生态 系统 项 目 (及 其 组 件 )， 并 逐个 了 解 它们 的 作用 ， 并 大 致 理解 安全 
是 如 何 应 用 的 。 


下 一 章 我 们 会 讨论 保护 分 布 式 系统 的 安全 。 你 会 发 现 ， 很 多 Hadoop 上 的 安全 威胁 和 缓 减 
方法 也 同样 适用 于 分 布 式 系统 。 
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第 一 部 分 





KERT 


第 2 章 


保护 分 布 式 系统 








第 1 童 介 绍 了 安全 计算 的 一 些 关 键 原理 ， 本 章 将 进一步 了 解 思 考分 布 式 系统 安全 时 面临 的 
一 些 有 趣 挑 战 。 接 下 来 你 将 看 到 ， 分 布 式 大 大 增加 了 系统 的 潜在 威胁 ， 从 而 也 增加 了 为 帮 
助 减轻 这 些 威胁 而 必需 的 安全 评估 的 复杂 度 。 我 们 将 用 一 个 真实 的 案例 说 明 安 全 需求 如 何 
随 着 系统 的 分 布 式 程度 而 增加 。 


以 银行 为 例 。 很 多 年 前 ， 对 普通 人 而 言 ， 银 行业 务 就 是 开车 去 当地 银行 ， 找 个 出 纳 员 ， 然 
后 亲自 进行 交易 。 而 银行 的 安全 措施 可 能 包括 检查 客户 的 身份 和 账号 ， 以 及 验证 用 户 要 求 
的 操作 可 以 执行 ， 比 如 在 取现 时 确保 账户 内 有 足够 的 钱 。 


多 年 来 ， 银 行 越 来 越 大 。 小 镇 上 的 银行 变 成 了 一 个 更 大 银行 的 支行 ， 因 此， 你 不 仅 可 以 在 
附近 的 这 个 银行 支行 办 理 业 务 ， 也 可 以 在 其 他 地 方 的 该 银行 支行 办 理 。 这 时 ， 保 护 资 产 所 
必需 的 安全 措施 也 有 所 增加 ， 因 为 需要 保护 的 不 再 是 一 个 地 点 。 同 时 ， 更 多 的 银行 出 纳 员 
也 需要 进行 妥善 的 培训 。 


更 进一步 ， 银 行 终于 使 用 上 了 ATM 机 ， 客 户 因 此 不 需要 去 支行 就 能 取现 。 你 可 能 会 想到 ， 
与 以 前 银行 业务 在 人 与 人 之 间 进 行 交 互 的 情况 相 比 ， 这 时 需要 更 多 安全 措施 保护 银行 。 随 
后 ， 银 行 之 间 开 始 相 互联 网 ， 从 而 允许 一 家 银行 的 客户 使 用 另 一 家 银行 的 ATM 机 。 这 时 ， 
银行 需要 相互 之 间 建 立 安全 控制 措施 ， 以 确保 这 种 互联 不 会 造成 安全 损失 。 最 后 ， 互 联网 
运动 引入 了 通过 网 站 甚至 移动 设备 进行 网 上 银行 业务 的 能 力 ， 这 又 大 大 增加 了 银行 的 汶 在 
威胁 ， 以 及 对 安全 控制 措施 的 需求 。 

如 你 所 见 ， 刚 开始 ， 保 护 小 镇 上 的 小 银行 只 是 一 个 简单 的 安全 任务 。 随 着 银行 在 数 十 年 来 
变 得 越 来 越 分 散 和 互联 ， 难 度 增 加 了 好 几 个 数量 级 。 虽 然 这 个 例子 看 起 来 很 浅显 ， 但 它 表 
达 了 如 何 为 分 布 到 数 十 、 数 百 其 至 数 千 台 机 器 上 的 系统 设计 安全 框架 的 问题 。 这 是 个 不 小 
的 任务 ， 为 了 使 这 个 任务 不 那么 可 怕 ， 我 们 可 以 对 它 进行 拆 解 。 首 先 ， 从 理解 威胁 开始 。 





















































2.1 威胁 种 类 


要 想 为 分 布 式 系统 设计 健壮 的 安全 架构 ， 一 个 关键 的 要 素 是 理解 可 能 出 现 的 威胁 ， 并 能 够 
对 威胁 进行 分 类 ， 从 而 更 好 地 理解 要 降低 这 些 威胁 需要 何 种 安全 机 制 。 本 节 将 回顾 一 些 需 
要 关注 的 、 常 见 的 威胁 类 别 。 


2.1.1 非 授权 访问 / 伪装 

非 授权 访问 是 最 常见 的 威胁 类 别 之 一 。 这 种 情况 出 现在 某 个 人 应 当 被 拒绝 访问 时 ， 反 而 成 
功 进入 系统 。 非 授权 访问 的 一 种 常见 方法 是 伪装 攻击 。 伪 装 的 概念 是 ， 一 个 非法 用 户 冒 充 
为 一 个 合法 用 户 ， 从 而 获取 访问 权 。 你 可 能 会 问 :“ 非 法 用 户 是 如 何 冒 充 为 合法 用 户 的 ?” 
最 可 能 的 答案 是 ， 攻 击 者 获取 了 一 个 合法 用 户 的 用 户 名 和 口令 。 

伪装 攻击 自从 互联 网 时 代 开 始 就 特别 突出 ， 尤 其 是 针对 分 布 式 系统 的 伪装 攻击 。 攻 击 者 
有 很 多 种 方法 获取 合法 的 用 户 名 和 口令 ， 比 如 尝试 常见 的 单词 和 词组 ,或 者 了 解 与 合法 
用 户 相关 的 、 可 能 会 被 用 作 密 码 的 单词 。 比 如 攻击 者 想 获取 一 个 社交 媒体 网 站 的 登录 凭 
证 ， 那 么 他 可 能 会 从 用 户 的 公开 帖子 中 收集 关键 字 ， 并 组 成 可 供 尝试 的 密码 列表 。 举 个 例 
子 ， 如 果 攻 击 者 关注 身 在 纽约 、 将 “棒球 ” 列 为 兴趣 爱好 的 用 户 ， 那 么 他 可 能 会 尝试 密码 
yankees (yankees 是 纽约 扬 基 队 的 队 名 ) 。 


如 果 非 法 用 户 成 功 实施 了 伪装 攻击 ， 安 全 管理 员 如 何 才 能 得 知 呢 ? 毕 沈 攻击 者 登录 时 使 用 
的 是 合法 用 户 的 赁 证， 从 分 布 式 系统 的 角度 看 ， 这 不 是 正常 行为 吗 ? 不 见得 。 通 常情 况 
下 ， 可 以 查看 审计 日 志 中 的 尝试 登录 行为 以 发 现 伪 装 攻击 。 如 果 攻 击 者 使 用 可 能 的 密码 列 
表 对 某 个 用 户 账号 进行 尝试 ， 那 么 不 成 功 的 尝试 行为 应 当 出 现在 审计 日 志文 件 中 。 如 果 看 
到 有 针对 某 个 用 户 的 大 量 失败 的 尝试 登录 行为 ， 那 么 通常 可 归 因 于 攻击 。 一 个 合法 用 户 有 
可 能 输 错 或 者 忘记 密码 ， 从 而 导致 少量 失败 的 尝试 登录 事件 ， 但 比如 20 次 连续 的 登录 失 
败 就 应 该 是 异常 的 了 。 

另外 一 种 发 现 伪装 攻击 的 常见 途径 是 ， 从 网 络 层面 看 ， 登 录 尝 试 的 来 源 是 哪里 。 按 照 全 地 
址 分 析 登 录 尝 试行 为 是 发 现 是 否 有 人 在 尝试 伪装 攻击 的 好 方法 。 尝 试 登录 的 客户 端 IP 地 址 
是 否 与 期 望 相符 ， 比 如 是 来 自 公 司 IP 地 址 的 一 个 已 知 子 网 ， 还 是 来 自 世 界 另 一 端的 某 个 国 
AX 还 有 ， 登 录 尝 试行 为 发 生 在 什么 时 间 ? Alice 是 在 凌晨 3 点 还 是 在 正常 的 工作 时 间 堂 
试 登录 系统 的 ? 


非 授 权 访 问 的 另外 一 种 形式 是 攻击 者 利用 系统 的 漏洞 ， 从 而 不 需要 提供 合法 凭证 就 能 进入 
系统 。 我 们 将 在 2.3 节 讨 论 漏洞 。 


2.1.2 ”内 在 威胁 

内 在 威胁 可 以 说 是 最 具 破 坏 性 的 威胁 类 型 。 顾 名 思 义 ， 攻 击 者 来 自 业 务 内 部 ， 并 且 是 一 个 
正常 用 户 。 内 在 威胁 可 以 包括 员工 、 顾 问 、 承 包 商 。 内 在 威胁 之 所 以 可 怕 是 因为 ， 攻 击 者 
已 经 具有 系统 的 内 部 访问 权限 。 攻 击 者 可 以 使 用 合法 凭证 登录 并 获得 系统 授权 ， 以 执行 特 
定 功能 ， 通 过 途中 的 许多 安全 检查 (因为 攻击 者 被 认为 应 当 被 授予 访问 权限 )。 这 种 威胁 
可 以 导致 对 系统 的 肆 无 总 习 的 攻击 ， 或 者 诸如 攻击 者 利用 自己 的 权限 把 敏感 数据 泄漏 给 非 
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授权 用 户 等 更 为 巧妙 的 攻击 。 


本 书 中 ， 你 将 会 找到 确保 用 户 只 访问 他 们 所 需 的 数据 和 服务 的 安全 特性 。 对 付 内 在 威胁 需 
要 有 效 的 审计 实践 (参见 第 8 章 )。 除 了 能 够 帮助 对 抗 内 在 威胁 的 技术 工具 之 外 ， 还 需要 
建立 业务 策略 强制 实施 合适 的 审计 ， 对 事件 响应 的 流程 也 需要 明确 。 虽 然 此 处 并 未 涉及 如 
何 建立 这 种 策略 的 最 佳 实践 ， 但 这 些 策略 对 本 章 描 述 的 所 有 威胁 类 型 而 言 都 是 必要 的 。 


2.1.3 拒绝 服务 


拒绝 服务 (Denial of Service, DoS) 是 指 ， 一 个 服务 对 于 一 个 或 多 个 用 户 而 言 不 可 用 。 
“服务 ”在 这 里 是 一 个 概括 性 词汇 ， 包 括 数据 访问 、 处 理 能 力 以 及 相关 系统 的 可 用 性 。 拒 
绝 服务 的 发 生 可 以 来 自 各 种 各 样 的 攻击 方式 。 在 互联 网 时 代 ， 一 种 常见 的 攻击 方式 是 ， 简 
单 地 使 用 大 量 网 络 流量 压 垮 系统 。 这 需要 使 用 很 多 机 器 并 行进 行 ， 因 此 使 得 这 种 攻击 变 为 
分 布 式 拒绝 服务 (Distributed Denial of Service，DDoS) 。 当 系统 被 过 多 需要 处 理 的 请 求 友 
炸 ， 就 会 开始 在 某 些 方面 产生 故障 ， 小 到 丢弃 其 他 合法 请 求 ， 大 到 系统 完全 失效 。 


虽然 分 布 式 系统 通常 受益 于 其 具有 的 某 些 容错 能 力 ， 但 DoS 攻击 仍然 是 可 能 的 。 例 如 ， 如 
果 一 个 分 布 式 系统 包含 50 台 服 务 器 ， 攻 击 者 可 能 很 难 扰乱 全 部 50 台 设 备 的 服务 。 但 如 
该 分 布 式 系统 仅仅 部 署 在 少量 网 络 设备 后 面 ， 例 如 1 台 网 络 防火 墙 和 1 台 接 入 交换 机 呢 ? 
攻击 者 可 以 将 分 布 式 系统 的 网 关 一 一 而 不 是 分 布 式 系统 本 身 一 一 作为 目标 ， 通 过 这 种 方法 
达到 自己 的 目的 。 这 一 点 很 重要 ， 我 们 将 在 第 3 划一 一 讲述 建立 集群 周边 的 网 络 边 界 一 一 
对 其 进行 讨论 。 


2.1.4 数据 威胁 

数据 是 分 布 式 系统 中 最 重要 的 部 分 。 疫 有 了 数据 ， 一 个 分 布 式 系统 就 只 是 数据 中 心里 一 堆 
“ 喻 喻 ” 响 的 空 闪 服务 器 ， 只 能 徒 增 电力 和 冷却 费用 。 正 因为 数据 如 此 重要 ， 它 也 是 安全 
攻击 的 重点 。 数 据 威胁 在 一 个 分 布 式 系统 中 出 现在 多 个 地 方 。 首 先 ， 数据 必须 以 安全 的 方 
式 存储 ， 以 防止 非 授权 的 查看 、 臭 改 或 删除 。 基 次， 数据 在 传输 过 程 中 也 必须 得 到 保护 ， 
因为 分 布 式 系统 毕 竞 是 分 布 式 的 。 通 过 网 络 传递 数据 可 能 会 被 DoS 攻击 等 破坏 性 的 攻击 威 
胁 ， 也 可 能 会 被 一 些 更 为 被 动 的 攻击 方式 威胁 ， 例 如 攻击 者 在 通信 方 不 知道 的 情况 下 抓 取 
网 络 通信 数据 。 第 1 章 讨论 了 CIA 模型 及 其 组 件 ，CIA 模型 在 根本 上 就 是 关于 降低 数据 威 
胁 的 。 


2.2 威胁 和 风险 评估 


你 可 能 不 是 第 一 次 听 到 上 一 节 中 对 威胁 类 别 的 叙述 ， 在 理解 这 些 威胁 类 别 的 基础 上 ， 对 实 
际 的 分 布 式 系统 进行 风险 评估 是 很 重要 的 。 例 如 ， 拒 绝 服务 攻击 更 有 可 能 发 生 在 直接 连接 
到 互联 网 的 系统 上 ， 而 对 于 那些 不 能 从 外 网 访问 的 系统 ， 如 公司 内 网 中 的 系统 ， 这 种 攻击 
发 生 的 风险 就 低 得 多 。 注 意 ， 是 风险 低 而 不 是 没有 风险 ， 这 是 个 很 重要 的 区 别 。 

评估 对 分 布 式 系统 的 威胁 需要 进一步 了 解 两 个 要 素 : 用 户 和 环境 。 理 解 这 两 个 要 素 后 ， 评 
佑 风险 就 更 容易 了 。 
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2.2.1 用 户 评估 

了 解 分 布 式 系统 会 暴露 给 什么 用 户 是 很 重要 的 。 这 明显 包括 访问 系统 的 用 户 和 直接 与 系统 
接口 交互 的 用 户 ， 也 包括 可 能 出 现在 别处 但 不 会 直接 访问 系统 的 用 户 。 理 解 这 种 环境 下 的 
用 户 有 助 于 更 好 地 进行 风险 评估 。 首 先 根据 分 布 式 系统 (如 Hadoop) 的 用 户 工作 对 其 进 
行 分 类 。 用 户 是 做 什么 的 ? 他 们 是 业务 情报 分 析 员 吗 ? 或 者 是 开发 者 ? 还 是 风险 分 析 员 ? 
还 是 安全 审计 员 ? 抑或 是 数据 质量 分 析 员 ? 

一 旦 用 户 根据 业 务 功能 被 分 成 不 同 的 组 ， 就 可 以 开始 识别 不 同 组 用 户 使 用 分 布 式 系统 的 访 
问 模式 和 工具 。 例 如 ， 如 果 分 布 式 系统 的 用 户 都 是 开发 者 ， 那 么 可 以 假定 他 们 需要 系统 中 
节点 的 控制 台 (shell) 访问 、 调 试 作业 的 日 志文 件 和 开发 工具 。 另 一 方面 ， 业 务 情报 分 析 
人 员 可 能 不 需要 以 上 任何 一 种 ， 而 需要 一 套 代 替 用 户 与 分 布 式 系统 交互 的 分 析 工 具 。 


还 有 间接 访问 系统 的 用 户 。 这 些 用 户 不 需要 系统 数据 或 处 理 资 源 的 访问 权限 ， 但 他 们 仍 会 
与 系统 进行 交互 。 这 种 交互 作为 某 些 功能 的 一 部 分 ， 比 如 一 些 系统 维护 、 健 康 监控 、 用 户 
审计 的 支持 功能 。 这 种 类 型 的 用 户 需 要 被 考虑 到 总 体 的 安全 模型 中 。 


2.2.2 ”环境 评估 

为 了 对 分 布 式 系统 进行 风险 评估 ， 还 需要 了 解 系 统 所 在 环境 。 这 通常 意味 着 要 对 本 系统 与 
其 他 逻辑 系统 相关 的 、 物 理 环境 相关 的 操作 环境 都 进行 评估 。 第 3 章 将 介绍 Hadoop UH 
的 相关 内 容 。 

如 前 所 述 ， 环 境 评 估 的 关键 准则 之 一 是 ， 判 断 分 布 式 系统 能 否 通 过 互联 网 访问 。 如 果 能 ， 
则 说 明 会 有 大 量 威胁 可 能 发 生 ， 如 DoS 攻击 、 漏 渔 利 用 和 病毒 。 连 接 至 互联 网 的 分 布 式 系 
统 需 要 长 期 监测 ， 就 像 应 用 软件 需要 定期 打 补 丁 、 安 全 软件 需要 定期 升级 一 样 。 


对 环境 评估 的 另 一 准则 是 ， 要 了 解 组 成 分 布 式 系统 的 服务 器 的 物理 位 置 。 它 们 位 于 自己 公 
司 的 数据 中 心 吗 ? 还 是 位 于 第 三 方 管理 的 数据 中 心 ? 抑 或 是 部 署 在 公有 云 设 施 上 ? 了 解 这 
些 问 题 的 答案 会 有 助 于 开始 建立 安全 评估 的 框架 。 例 如 ， 帮 分 布 式 系统 搭建 在 一 个 公有 云 
上 ， 那 么 这 些 威胁 会 立刻 显现 ， 基础 架构 不 由 自己 的 公司 拥有 ， 因 此 用 户 不 清楚 谁 对 这 些 
机 器 拥有 直接 访问 权 ， 这 使 得 主机 服务 提供 商 也 被 囊括 进 内 部 威胁 之 中 。 同 样 ， 公 有 云 的 
使 用 回避 了 用 户 如 何 连 接 至 分 布 式 系统 ， 以 及 数据 如 何 流 入 /流出 系统 的 问题 。 一 个 开放 
网 络 到 一 个 共享 的 公有 云 之 间 的 通信 受到 的 威胁 级 别 要 比 公 司 内 部 数据 中 心 之 间 通 信 的 威 
胁 级 别 高 得 多 。 

这 样 说 的 重点 不 是 要 让 大 家 认为 ， 公 有 云 不 好 而 公司 的 数据 中 心 好 ， 而 是 要 告诉 读者 ， 对 
于 分 布 式 系统 已 知 威胁 的 级 别 会 由 于 其 在 在 形式 的 不 同 而 不 同 。 若 不 考虑 环境 因素 ， 那 么 
保护 分 布 式 系 统 的 关键 在 于 从 多 种 层面 降低 风险 ， 这 些 内 容 将 会 在 下 一 节 讨 论 。 


2.3 漏洞 


虽然 漏 调 是 一 个 独立 话题 ， 但 也 与 威胁 和 风险 相关 。 分 布 式 系统 中 ， 漏 洞 以 多 种 不 同形 态 
存在 。 一 个 常见 的 存在 漏洞 的 地 方 是 软件 本 身 ， 所 有 软件 都 有 漏洞 。 这 听 起 来 像 是 个 武断 
的 结论 ， 但 事实 是 ， 没 有 软件 是 100% 安全 的 。 
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那么 ， 到 底 什么 是 软件 漏洞 呢 ?” 简 言 之 ,漏洞 就 是 一 段 代码 ， 这 上段 代码 容易 受到 未 被 考虑 
的 错误 或 者 无 效 条 件 的 影响 。 下 面 看 一 个 简单 的 实例 。 一 个 软件 含有 一 个 输入 密码 的 界 
硬 ， 该 界面 允许 用 户 修改 密码 (假设 软件 的 内 在 逻辑 允许 至 多 16 个 字符 长 度 的 密码 )。 如 
果 新 密码 的 输入 框 长 度 被 错误 地 限制 为 至 多 8 个 字符 ， 导 致 用 户 选择 的 新 密码 被 错误 截 
断 ， 那 么 会 发 生 什么 呢 ? 这 可 能 导致 用 户 实际 上 设 定 的 密码 比 他 们 认为 的 要 短 ， 或 者 导致 
更 糟 的 情况 : 复杂 度 较 低 的 密码 更 容易 被 攻击 者 猜 出 。 


当然 ， 软 件 漏洞 不 是 分 布 式 系统 容易 遭受 的 唯一 漏洞 ， 其 他 漏洞 还 与 分 布 式 系 统 依赖 的 网 
络 架 构 设 施 有 关 。 例 如 ， 多 年 前 有 个 漏洞 ， 允 许 攻 击 者 向 网 络 的 广播 地 址 发 送 ping 命令 ， 
这 导致 网 络 中 的 每 一 台 主 机 都 会 回复 ping 命令 。 攻 击 者 构造 ping 的 请 求 ， 将 发 起 请 求 的 
it IP 设 定 为 网 络 中 其 试图 攻击 的 某 个 主机 IP。 这 样 做 的 结果 就 是 ， 目 标 主机 被 网 络 中 的 
通信 淹没 ， 从 而 导致 故障 。 这 种 攻击 手段 通常 称 为 “死亡 之 ping” (ping of death), IZA 
念 现在 已 经 缓解 ， 但 重点 是 ， 虽然 该 漏洞 与 网 络 中 机 颖 的 软件 没有 关系 ， 但 在 网 络 硬 件 供 
应 商 修复 该 漏洞 之 前 ， 攻 击 者 依然 能 够 利用 这 个 漏洞 破坏 网 络 中 的 特定 主机 。 


软件 补丁 通常 用 于 修复 被 发 现 的 漏洞 ， 因 此 ， 定 期 按 计 划 更 新 补丁 包 是 分 布 式 系统 软件 栈 
中 每 个 管理 员 的 标准 操作 规程 中 不 可 缺少 的 部 分 。 正 如 “死亡 之 ping” 的 例子 展示 的 那 
样 ， 补 丁 的 范围 也 应 包括 交换 机 、 路 由 器 、 其 他 网 络 设 备 、 硬 盘 控制 器 以 及 服务 器 BIOS 
的 固件 。 


2.4 深度 防御 


安全 管理 员 面 临 的 众多 挑战 之 一 是 ， 如 何 缓解 本 章 提 到 的 所 有 威胁 和 漏洞 。 研 究 多 种 威胁 
时 ， 人 们 很 容易 发 现 ， 没 有 一 个 “ 放 之 四 海 而 错 准 ”的 方法 能 够 有 效 消除 这 些 威胁 。 为 了 
防御 这 些 威胁 ， 提 供 一 个 可 接受 的 安全 等 级 ， 需 要 部 署 很 多 安全 控制 策略 一 一 并 且 它 们 必 
须 协同 工作 。 这 种 同时 部 署 多 种 安全 控制 策略 和 保护 措施 的 方法 就 是 深度 防御 。 

回顾 历史 ， 深 度 防 御 并 未 被 常常 遵守 。 “安全 ”通常 指 边界 安全 ， 此 概念 中 ， 安 全 控制 策 
略 仅仅 存在 于 受 保护 目标 的 外 部 或 边界 。 一 个 经 典 的 例证 便 是 想象 一 个 堡垒 ， 其 周边 围 有 
很 厚 的 高 墙 。 一 般 的 思维 定 势 会 认为 ， 只 要 高 墙 不 倒 ， 堡 爸 就 是 安全 的 。 如 有 果 高 墙 被 攻 
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有 日 间 正 常 营业 时 间 才 会 打开 。 同 时 ， 店 里 也 有 警报 系统 ， 入 侵 者 在 非 营业 时 间 非 法 冯 和 人 
时 会 触发 。 在 正常 的 营业 时 间 ， 购 物 者 的 行为 被 遍布 商店 的 安全 摄像 头 监控 着 。 最 后 ， 商 
店 雇员 也 受到 专门 培训 ， 以 注意 那些 形迹 可 疑 的 客户 。 

所 有 这 些 安全 措施 的 部 署 都 是 为 了 针对 多 种 不 同 威胁 ， 例 如 入 室 盗 窗 、 伪 装 成 顾客 的 扒 
手 ， 以 及 抢劫 等 ， 以 保护 商店 。 如 果 杂 货 店 仅仅 依赖 于 “城堡 高 墙 ”的 策略 加 强 门 和 锁 ， 
将 会 对 大 部 分 威胁 束手无策 。 深 度 防御 很 重要 ， 因 为 任何 单一 的 安全 策略 均 无 法 缓解 商店 
面临 的 所 有 风险 。 对 于 分 布 式 系统 也 一 样 ， 在 很 多 地 方 能 够 部 署 独 立 的 安全 策略 。 例 如 在 
边界 配置 网 络 防火 墙 ， 严 格 限制 对 数据 的 访问 ， 或 者 限制 对 服务 器 的 访问 等 ， 但 同时 使 用 
所 有 这 些 策略 才能 降低 攻击 的 成 功率 。 
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2.5 1M 


本 章 通 过 分 析 威 胁 种 类 和 漏洞 分 解 了 分 布 式 系统 的 安全 体系 ， 并 且 展 示 了 使 用 深度 防御 的 
安全 架构 能 够 将 安全 风险 减少 到 最 低 。 我 们 还 讨论 了 内 部 威胁 ， 以 及 为 什么 不 能 在 设计 安 
全 架构 时 忽视 它 。 


第 3 章 将 从 建立 一 个 健壮 的 系统 架构 开始 ， 重 点 探讨 Hadoop 的 保护 措施 。 
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在 第 2 章 我 们 看 到 ， 随 着 单个 独立 的 系统 变 为 完全 分 布 式 的 网 络 系统 ， 甚 安全 形势 也 发 生 
了 改变 。 我 们 能 清楚 地 看 到 ， 保 护 一 个 Hadoop 集群 中 成 百 上 千 的 服务 器 有 多 么 困难 。 本 
章 将 把 集群 分 解 为 若干 组 件 ， 这 些 组 件 可 作为 整体 安全 策略 的 一 部 分 进行 单独 保护 ， 从 而 
深入 探讨 这 个 艰巨 的 任务 。Hadoop 集群 大 致 可 分 为 两 个 主要 部 分 : 网 络 和 主机 。 在 此 之 
前 ， 先 看 看 Hadoop 集群 的 运行 环境 。 


3.1 运行 环境 


在 Hadoop 早期 集群 可 能 意味 着 一 堆 原 本 被 用 于 其 他 用 途 ， 而 现在 被 用 来 尝试 新 技术 的 
机 器 ， 黄 至 可 能 是 用 一 些 陈 旧 的 果 面 级 机 器 加 上 一 些 接 入 交换 机 组 成 的 。 多 年 来 ， 事情 发 
生 了 巨大 的 改变 。 在 房间 角落 堆 一 些 机 器 的 日 子 已 经 被 “Hadoop 集群 是 企业 中 的 头等 公 
民 ” 的 新 观念 所 取代 。Hadoop 集群 在 物理 上 和 逻辑 上 融入 企业 的 地 方 被 称 为 “运行 环境 ”。 


影响 Hadoop 运行 环境 选择 的 因素 有 很 多 ， 已 经 超出 了 本 书 的 范畴 ， 我 们 将 重点 关 广 现 在 
使 用 的 典型 操作 环境 。 由 于 服务 器 和 网 络 硬件 的 快速 发 展 (感谢 摩尔 定律 )，Hadoop 可 以 
在 一 些 不 同 环境 下 运行 。 
内 部 (In-house) 
该 Hadoop 环境 包含 企业 自己 拥有 和 运营 的 一 系列 物理 机 器 ， 并 且 在 企业 自己 掌控 的 数 
据 中 心里 运行 。 
管理 (Managed) 
这 种 Hadoop 环境 是 内 部 环境 的 一 种 演变 ， 也 由 物理 机 器 组 成 ， 但 企业 并 不 拥有 和 运营 
这 些 机 器 。 它 们 是 从 另 一 个 单独 的 企业 租 来 的 ， 该 企业 负责 服务 器 的 所 有 供给 和 维护 工 
作 。 服 务 器 在 它们 自己 的 数据 中 心里 运行 。 
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& (Cloud) 
这 种 Hadoop 环境 与 其 他 的 相 比 完全 不 同 ， 一 个 云 环境 由 物理 上 分 布 在 很 多 不 同 地 点 的 
虚拟 服务 器 组 成 。 最 流行 的 Hadoop 云 服务 是 亚马逊 的 EC2 (Elastic Compute Cloud, 5 
性 计算 云 )。 


3.2 网络 安全 


网 络 安全 是 一 个 详细 的 话题 ， 此 处 无 法 彻底 阐述 。 因 此 ， 我 们 将 重点 关注 一 些 重 要 的 、 和 党 
用 于 保护 Hadoop 集群 网 络 的 网 络 安全 主题 ， 甚 中 第 一 个 就 是 网 络 划 分 。 


3.2.1 网 络 划分 


网 络 划分 是 将 机 器 和 服务 从 更 大 的 网 络 中 隔离 出 来 的 常见 做 法 。 不 管 我 们 讨论 Hadoop 集 
TE, Web 服务 器 、 部 门 桌 面 工 作 站 还 是 其 他 系统 ， 这 种 做 法 均 适 用 。 可 以 用 两 种 不 同 的 方 
法 创建 一 个 网 段 ， 这 两 种 做 法 通常 同时 出 现 。 


第 一 种 方法 是 物理 网 络 划分 ， 使 用 路 由 器 、 交 换 机 、 防 火 墙 等 设备 对 网 络 的 一 部 分 进行 分 
割 。 虽 然 这 些 设备 运行 在 OSI 模型 的 较 高 层 ， 但 从 物理 层 角 度 看 ， 网 络 分 隔 就 是 一 个 网 段 
中 的 所 有 设备 都 物理 接 入 独立 于 更 大 网 络 中 其 他 设备 的 网 络 设备 。 

第 二 种 方法 是 远 辑 网 络 划 分 。 逻 辑 划分 运行 在 OSI 模型 的 较 高 层 ， 最 普遍 的 是 在 使 用 下 
寻 址 的 网 络 层 。 在 逻辑 隔离 下 ， 同 一 网 段 的 设备 以 某 种 方式 组 合 到 一 起 。 实 现 这 个 目标 的 
最 普遍 的 方法 是 使 用 子 网 。 例 如 ， 一 个 Hadoop 集群 有 150 个 节点 ， 有 可 能 这 些 节点 在 逻 
辑 上 被 分 到 同一 个 /24 子 网 ( 即 一 个 掩 码 为 255.255.255.0 的 子 网 ， 包 含 最 多 256 4 IP H 
址 ， 其 中 254 个 可 用 )。 使 用 这 种 方法 在 逻辑 上 组 织 主 机 便于 管理 和 安全 保护 。 

网 络 划分 方法 中 最 和 用 的 是 ， 采 用 物理 和 逻辑 网 络 划分 的 混合 方法 。 实 现 这 种 混合 方法 
的 最 常用 方式 是 使 用 VLAN (virtual local area network， 虚 拟 局 域 网 ) 。VLAN 允许 多 个 
网 络 子 网 共享 物理 交换 机 ， 虽 然 所 有 VLAN 共享 一 个 2 层 网 络 ， 但 每 个 VLAN 都 是 一 个 
独立 的 广播 域 。 根 据 网 络 交换 机 或 路 由 器 的 能 力 ， 可 能 需要 将 每 个 物理 端口 分 配 到 一 个 
VLAN， 或 者 利用 分 组 标记 (packet tagging) 在 同一 个 端口 运行 多 个 VLAN. 


如 前 所 述 ， 物 理 隔 离 和 逻辑 隔离 可 以 并 且 经 常 同时 使 用 。 物 理 和 逻辑 隔离 可 能 存在 于 内 部 
和 管理 环境 ， 该 环境 中 ，Hadoop 集群 具有 一 个 给 定 的 逻辑 子 网 ， 并 且 所 有 机 器 都 物理 连 
接 到 同一 组 专用 网 络 设备 (例如 ToR 交换 机 和 汇聚 交换 机 )。 

云 运 行 环境 中 ， 物 理 上 的 网 络 划分 通常 要 困难 得 多 。 云 基础 设施 的 设计 目标 就 是 要 让 硬件 
的 位 置 变 得 不 那么 重要 ， 更 重要 的 是 能 够 按 需 调整 服务 可 用 性 。 一 些 云 环境 允许 用 户 选 择 
处 于 同一 位 置 组 的 机 器 ， 虽 然 从 性 能 角度 看 这 样 当 然 更 好 (例如 网 络 延迟 更 小 )， 但 通常 
无 益 于 安全 。 同 一 位 置 组 的 机 器 可 能 与 其 他 机 器 共享 相同 的 物理 网 络 。 


现在 ， 如 果 有 一 个 Hadoop 集群 位 于 自己 的 网 段 ， 应 当 如 何 保护 该 网 段 呢 ?” 这 很 大 程度 上 
要 靠 网 络 防 火 墙 和 入 侵 检 测 与 防护 系统 。 





































































































































































































































































































3.2.2 网络 防火 墙 


网 络 防 火 墙 将 Hadoop 集群 从 它 所 在 的 网 络 中 强制 隔离 ， 是 一 种 非常 好 的 方法 。 防 火 墙 的 
基本 前 提 是 ， 它 被 用 作 不 同 网 段 之 间 网 络 流量 的 附加 安全 层 。 例 如 ， 网 络 防 火 墙 可 能 存在 
于 公司 内 部 用 户 网 段 和 含有 互联 网 站 点 的 网 段 之 间 。 同 样 ， 网 络 防火 墙 不 太 可 能 出 现在 一 
座 办 公 楼 同一 个 部 门 的 两 台 桌 面 计算 机 之 间 。 

表面 上 看 ， 网 络 防火 墙 是 不 同 于 路 由 器 、 交 换 机 等 网 络 设备 的 另 一 种 硬件 ， 但 也 不 完全 如 
此 。 现 在 的 路 由 器 和 (AE) 交换 机 通常 也 具备 许多 与 独立 防火 墙 相 同 的 核心 功能 。 我 们 
将 在 本 节 讨 论 Hadoop 环境 下 关于 防火 墙 的 几 个 要 点 。 

网 络 防火 墙 的 基本 功能 是 ， 根 据 网 络 和 传输 层 属 性 允许 或 过 滤 CESE) 网 络 数据 包 。 归 根 
结 底 就 是 ， 根 据 源 和 目的 全 、 协 议 类 型 (如 TCP、UDP、ICMP)、 源 和 目的 端口 (如果 适 
FA) 进行 过 滤 决 策 。 网 络 设备 很 容易 进行 这 些 过 滤 决 策 ， 因 为 所 有 这 些 信息 都 包含 在 数据 
包头 中 ， 也 就 是 说 ， 并 不 必须 对 载荷 数据 进行 深度 包 检测 。 

Hadoop 的 基本 过 滤 的 价值 通常 见于 3 种 常用 类 型 : 进出 集群 的 数据 传输 、 客 户 端 访问 ( 包 
括 终 端 用 户 和 第 三 方 工具 )、 管 理 流 量 。 每 个 类 型 都 从 不 同 视角 考虑 ， 如 何 用 网 络 防 火 墙 
确保 Hadoop 集群 和 其 他 一 切 事 物 之 间 的 网 络 路 径 的 安全 性 。 


1. 数 据 传输 

第 一 种 类 型 是 数据 传输 ， 即 数据 是 如 何 被 接收 到 集群 或 者 提供 到 下 游 系统 的 。 第 10 章 将 
详细 讨论 从 Hadoop 生态 系统 的 角度 出 发 ， 如 何 保 护 这 些 流 的 安全 。 现 在 重点 关注 的 是 这 
些 数据 传输 的 网 络 通道 和 包含 的 数据 类 型 ， 从 而 决定 防火 墙 所 需 的 检查 级 别 。 


首先 看 数据 传输 的 网 络 通道 ， 和 常见 的 选择 是 通用 的 文件 传输 工具 ， 例 如 FTP 和 SCP. 

RDBMS 流 (经 由 Sqoop). Flume 等 流 接 收工 具 产 生 的 数据 流 。 这 些 常见 的 通道 都 有 相应 

的 卫 地 址 和 端口 ， 可 以 很 好 地 进行 网 络 通信 识别 ， 以 及 创建 允许 该 通信 的 防火 墙 规则 。 了 

解 预 期 流量 是 什么 样 的 很 重要 。 哪 些 机 器 拥有 源 数据 ?数据 在 导入 集群 之 前 是 否 先 要 到 集 

群 边 缘 的 一 台 服 务 器 上 ? 哪些 机 器 在 接收 从 集群 提取 的 数据 ? 解决 这 些 问题 要 求 网 络 防火 

墙 规则 大 体 上 能 够 做 到 以 下 几 点 。 

。 允许 由 特定 FTP 服务 器 向 一 个 或 多 个 边缘 节点 的 FTP 流量 〈 本 章 将 会 进一步 描述 ) ; 

。 允许 集群 中 的 工作 市 点 通过 指定 端口 连接 一 个 或 多 个 数据 库 服 务 器 ,以 发 送 和 接收 数据 ， 

。 人 允许 数据 通过 限定 数量 的 端口 ， 从 Web 服务 器 集群 产生 的 日 志 事 件 中 传输 到 一 系列 
Flume 代理 


接 下 来 要 确定 的 是 数据 来 源 ， 以 及 是 否 需要 额外 的 防火 墙 检 测 。 例 如 ， 车 一 个 上 游 数 据 源 
来 自 内 部 业务 系统 ， 那 么 上 述 防火 墙 策略 就 是 够 了 。 但 若 来 自 一 个 不 可 信 的 源 (如 互联 网 
上 提供 的 数据 ) ， 则 可 能 需要 深度 包 检测 ， 以 保护 集群 不 受 恶 意 内 容 的 危害 。 

2. 客 户 端 访问 

第 二 种 常见 的 类 型 是 关于 客户 端 访 问 的 。 我 们 将 在 第 11 章 详细 讨论 这 个 话题 。 但 从 网 络 
防火 墙 的 角度 看 ， 重 要 的 是 了 解 并 区 分 客户 端 与 集群 交互 所 使 用 的 方法 。 一 些 集群 会 在 
“全 黑 ” 环 境 中 运行 ， 这 意味 着 不 允许 任何 终端 用 户 活动 。 这 种 类 型 的 环境 通常 会 运行 持 
续 的 ETL 作业， 全 自动 产生 结果 数据 并 报告 给 下 游 系 统 。 这 种 环境 下 ， 客 户 端 访 问 策略 只 
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是 简单 地 阻 断 一 切 ， 保 持 集 群 运行 和 安全 只 需要 数据 传输 和 管理 相关 的 策略 。 

一 种 更 加 普遍 的 环境 是 ， 包 含 了 访问 集群 的 用 户 、 工 具 和 应 用 程序 的 混合 环境 。 这 种 情况 
下 ， 组 织 管理 是 关键 。 第 三 方 工具 运行 在 什么 地 方 ? 它们 能 否 被 单独 放 到 几 个 已 知 的 机 
器 ? 用 户 从 什么 地 方 访问 集群 ?能 否 要 求 用 户 使 用 边缘 节点 ? 自 定 义 应 用 程序 运行 在 什么 
地 方 ? 网 络 防 火 墙 处 于 应 用 程序 和 集群 之 间 ， 还 是 处 于 应 用 程序 和 用 户 之 间 ? 

3. 管 理 流 量 

最 后 一 个 常见 的 种 类 是 管理 流量 ， 包 括 管理 员 用 户 的 登录 行为 、 从 集群 到 外 部 审计 服务 器 
的 审计 事件 流量 、 从 集群 到 另外 一 个 网 络 的 备份 流量 等 。 备 份 可 能 是 通过 DistCp 进行 大 
量 的 数据 传输 ， 甚 至 是 将 Hive metastore 数据 库 备份 到 集群 数据 中 心 之 外 的 地 方 。“ 管 理 流 
量 ” 这 个 词 并 不 是 要 描述 量 有 多 少 ， 而 是 说 该 流量 与 常规 客户 端 产生 的 流量 有 所 不 同 。 

网 络 防火 墙 是 集群 和 外 部 网 络 之 间 的 一 种 很 好 的 安全 边界 ， 但 如 何 防 止 可 能 主动 攻击 集群 
机 器 的 恶意 流量 呢 ?” 对 此 ， 我 们 接 下 来 讨论 入 侵 检测 和 防御 。 


3.2.3 入侵 检测 和 防御 


上 一 市 介绍 了 ， 如 何 使 用 网 络 防火 墙 作为 控制 进出 Hadoop 集群 所 在 网 络 的 数据 流 。 虽 然 
这 种 方法 对 “正常 ”的 日 常 流量 很 有 效 ， 但 如 果 发 生 不 那么 正常 的 事件 ， 该 怎么 办 呢 ? 如 
果 一 个 恶意 的 攻击 者 绕 过 了 网 络 防火 墙 ， 并 尝试 攻击 集群 中 的 机 器 〈 如 缓冲 区 溢出 攻击 )， 
会 怎样 呢 ? 如 果 是 分 布 式 拒绝 服务 攻击 呢 ? 入 侵 检 测 和 防御 系统 可 以 帮助 阻止 这 些 类 型 的 
攻击 。 探 讨 入 侵 检测 和 防御 设备 如 何 融 入 集群 的 系统 架构 之 前 ， 先 了 解 一 些 关 于 这 些 系 统 
的 基础 知识 。 


讨论 网 络 安全 上 时， 入侵 检测 系统 (IDS) FIA HAH (IPS) 经 常 被 混为一谈 。 然 而 ， 
这 两 个 系统 处 理 可 疑 入 侵 事 件 时 ， 扮 演 的 角色 是 根本 不 同 的 。IDS， 顾 名 思 义 是 检测 入 侵 
事件 ， 与 监控 和 预警 系统 属于 同一 类 别 。IDS 通常 以 混杂 模式 接 入 交换 机 ， 这 意味 着 所 有 
交换 机 上 的 网 络 流量 在 发 送 到 指定 目标 端口 的 同时 ， 也 会 发 送 给 IDS。 当 IDS 发 现 一 个 被 
怀疑 是 攻击 行为 的 数据 包 或 者 数据 流 时 ， 就 会 产生 一 条 警告 。 警 告 可 能 是 发 给 独立 的 监控 
系统 的 事件 ， 也 可 能 只 是 一 封 安全 管理 员 订 阅 的 邮件 。 图 3-1 展示 了 一 个 包含 IDS 的 网 络 
图 ， 可 以 看 出 ，IDS 并 不 处 于 集群 网 络 与 外 部 网 络 之 间 的 网 络 流 中 。 

另 一 方面 ，IPS 不 仅 检 测 入 侵 行为 ， 还 会 在 入 侵 行为 发 生 时 主动 尝试 预防 或 阻止 。 之 所 以 
能 做 到 这 一 点 是 因为 ，IDS 和 IPS 的 关键 区 别 在 于 ，IPS 不 在 网 络 中 以 混杂 模式 监听 数据 ， 
而 处 于 网 络 两 侧 的 中 间 。 正 因 如 此 ，IPS 可 以 阻 断 流 向 网 络 另 一 端的 入 侵 数 据 流 。IPS 的 一 
个 常见 功能 就 是 故障 时 关闭 (fail close)， 这 意味 着 ，IPS 发 生 故 障 时 (例如 遭受 大 面积 的 
DDoS 攻击 ， 导 致 其 无 法 扫描 数据 包 )， 它 会 直接 阻 断 所 有 流向 IPS 另 一 侧 的 数据 包 。 虽 然 
这 看 上 去 可 能 也 算 一 种 成 功 的 DDoS 攻击 ， 但 在 一 定 程度 上 ， 这 种 故障 时 关闭 的 机 制 反 而 
保护 了 IPS 后 面 的 所 有 设备 。 图 3-2 展示 了 包含 IPS 的 网 络 图 ， 可 以 发 现 ，IPS 实际 上 处 
于 集群 网 络 与 外 部 网 络 之 间 的 网 络 流 中 。 
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图 3-1: 包含 IDS 的 网 络 图 





互联 网 





分 布 式 交 换 机 











图 3-2: 包含 IPS 的 网 络 图 





我 们 已 经 从 宏观 上 了 解 了 这 些 设备 的 作用 ， 这 对 于 Hadoop 又 有 什么 帮助 呢 ? RAKE A 
外 一 个 网 络 安全 难题 。Hadoop 集群 本 身 存储 着 大 量 数据 ， 对 集群 的 入 侵 尝试 进行 检测 和 
防御 对 保护 大 规模 数据 而 言 至 关 重 要 。 那 么 ， 相 对 于 Hadoop 集群 所 在 网 络 的 其 他 部 分 而 
言 ， 这 些 设备 应 当 放 在 什么 位 置 呢 ? 答案 是 : 可 能 是 多 个 地 方 。 


























讨论 网 络 防火 墙 的 时 候 我 们 提 到 过 ， 从 安全 角度 看 ， 来 





自 开放 互联 网 的 数据 接收 通道 需要 


被 区 别 对 待 。 对 于 IDS 和 IPS 设备 来 说 也 同样 如 此 ， 入 侵 攻 击 大 部 分 来 自 互联 网 上 的 亚 
意 用 户 。 考 虑 到 这 一 点 ， 将 IPS 放 到 互联 网 数据 源 的 接收 路 径 中 就 十 分 合理 了 。 互 联网 可 
能 是 恶意 攻击 者 的 温床 ， 但 企业 的 内 部 威胁 也 是 实际 存在 的 ， 且 不 容 忽 视 。 选 择 安全 架构 
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时 ， 必 须 假定 恶意 攻击 者 也 在 同一 座 楼 中 工作 。 将 IDS 放 在 可 信和 网 络 内 部 后 ， 可 以 作为 提 








醒 管 理 员 防范 内 部 威胁 的 重要 工具 。 





讨论 IDS 和 IPS 的 一 个 额外 的 好 处 是 ， 记 录 大 量 网 络 流 也 是 很 好 的 Hadoop 用 例 。 安 全 公 
司 常常 使 用 Hadoop 收集 很 多 不 同 用 户 网 络 中 的 IDS 日 志 ， 以 进行 一 系列 的 大 规模 数据 分 











析 和 可 视 化 ， 这 也 会 反 过 来 扩充 防火 墙 和 IDS/IPS 设备 使 用 的 规则 引擎 。 


3.3 ”Hadoop 角 色 和 隔离 策略 




















之 前 我 们 提 到 ， 集 群 中 的 节点 可 以 被 分 成 几 组 ， 以 帮助 建立 充分 的 安全 策略 。 本 市 看 看 如 
何 做 到 这 一 点 。 每 个 节点 在 集群 中 都 扮演 着 某 种 角色 ， 这 些 角色 决定 了 需要 哪些 安全 策略 
来 保护 它 。 首 先 ， 回 顾 一 下 常见 的 Hadoop 生态 系统 组 件 ， 以 及 每 个 组 件 承担 的 服务 角色 





(我 们 假定 你 已 经 了 解 这 些 服务 角色 是 做 什么 的 ， 如 果 不 是 ， 请 快速 回顾 第 1 章 )。 


HDFS 
NameNode (活跃 /待命 /备用 )、DataNode、JournalNode、FailoverController、HttpFS 、 
NFSGateway 

MapReduce 


JobTracker (活跃 / 4#), TaskTracker, FailoverController 


YARN 

ResourceManager (活跃 / 待命 )、 NodeManager, JobHistory Server 
Hive 

Hive Metastore Server, HiveServer2, WebHCatServer 


Impala 
Catalog Server, StateStore Server, Impalad 


Hue 
HueServer, Beeswax, KerberosTicketRenewer 


Oozie 
OozieServer 


ZooKeeper 
ZooKeeper Server 


HBase 
Master, RegionServer, ThriftServer, RESTServer 


Accumulo 
Master, TabletServer, Tracer, GarbageCollector 


Solr 
SolrServer 
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管理 和 监控 服务 
Cloudera Manager, Apache Ambari, Ganglia, Nagios, Puppet, Chef 等 


通过 这 个 〈 非 详尽 的 ) 列表 可 以 看 到 ， 许 多 生态 系统 项 目 都 有 主 / 从 式 架构 ， 这 很 适合 从 
安全 架构 角度 组 织 服务 角色 。 此 外 ， 还 有 一 些 服务 角色 是 面向 客户 端的 。 总 的 来 说 ， 隔 离 
策略 是 ， 确 定 运 行 在 主 节点 上 的 主 服务 、 工 作 节 点 上 的 工作 服务 和 管理 节点 上 的 管理 服务 ， 
还 要 确定 哪些 组 件 需要 部 署 客户 端 配置 文件 ， 从 而 使 得 用 户 能 够 访问 该 服务 。 这 些 客户 端 
配置 文件 与 面向 客户 端的 服务 一 起 放 到 边界 节点 上 。 接 下 来 将 更 详细 地 讲解 节点 的 分 类 。 


3.3.1 #74 


主 节 点 可 能 是 最 重要 的 节点 组 ， 它 包括 所 有 作为 Hadoop 骨干 的 主要 服务 。 由 于 这 些 角 色 

对 于 它们 所 代表 的 组 件 的 重要 性 ， 所 以 也 需要 更 多 安全 策略 保护 自己 。 如 下 是 需要 在 专用 

主 节点 中 运行 的 角色 列表 : 

。 HDFS NameNode、 备 用 NameNode (或 者 待命 NameNode)、Failover Controller, 
JournalNode、 KMS 

。 MapReduce JobTracker, FailoverController 




















* YARN ResourceManager, JobHistory Server 
* Hive Metastore Server 

* Impala Catalog Server, StateStore Server 

* Sentry Server 

e  ZooKeeper Server 

e HbBase Master 

* Accumulo Master, Tracer, GarbageCollector 


有 了 这 个 服务 列表 后 ， 第 一 个 安全 问题 是 : 谁 需 要 访问 主 市 点 ， 目 的 是 什么 ?简单 的 答案 
是 : 管理 员 ， 为 了 执行 管理 功能 。 集 群 的 客户 一 一 不 管 是 实际 的 终端 用 户 还 是 第 三 方 工 
有 具 一 一 都 可 以 利用 开放 的 标准 接口 远程 访问 所 有 这 些 服务 。 例 如 ， 一 个 使 用 hdfs dfs -ls 
命令 的 用 户 可 以 在 任何 拥有 相应 HDFS 服务 客户 端 配 置 的 机 器 上 成 功 执行 该 命令 ， 而 不 需 
要 在 运行 HDFS NameNode 的 主 市 点 上 执行 。 考 虑 到 这 一 点 ， 需 要 将 主 市 点 限制 为 “ 仅 限 
管理 员 访 问 *"， 原 因 如 下 。 


资源 连接 
如 果 普 通 终端 用 户 能 够 使 用 主 节点 运行 任意 程序 ， 从 而 使 用 系统 资源 ， 那 么 这 会 夺 走 原 
本 主 节点 角色 所 需 的 资源 ， 从 而 导致 性 能 下 降 。 

安全 漏洞 
软件 天 生 就 具有 漏洞 ，Hadoop 也 不 例外 。 如 果 允 许 用 户 访问 担任 主 节 点 角色 的 机 器 ， 
那 就 为 利用 Hadoop 代码 中 未 修补 的 漏洞 (不管 是 恶意 的 还 是 无 意 的 ) 打开 了 一 局 大 
门 。 限 制 对 主 节 点 的 访问 降低 了 利用 这 些 安全 漏洞 的 风险 。 

拒绝 服务 
“用 户 可 以 做 出 不 可 思议 的 事情 *， 这 已 经 是 很 客气 的 说 法 了 。 如 果 终 端 用 户 使 用 与 主 节 
点 角色 相同 的 机 器 ， 就 不 可 避免 地 为 其 做 出 某 些 会 搞 垮 主 进程 的 行为 创造 条 件 。 回 到 资 
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源 争 用 的 问题 。 如 果 用 户 运 行 了 一 个 占 满 日 志 目 录 的 失控 的 进程 ， 结 果 会 怎么 样 ? 所 有 
主 节 点 角色 都 能 处 理 无 法 记录 日 志 的 情况 吗 ? 管理 员 会 想 找 出 问题 吗 ? 另外 一 个 类 似 的 
例子 是 ， 一 个 失控 的 进程 占 满 了 系统 的 CPU 或 者 内 存 资源 ， 从 而 导致 系统 出 现 内 存 不 
足 的 错误 。 


3.3.2 ”工作 节点 


工作 市 点 负责 处 理 Hadoop 集群 实际 做 的 大 部 分 工作 ， 即 存储 和 处 理 数据 。 工 作 节 点 上 的 
典型 角色 如 下 。 

* HDFS DataNode 

e MapReduce TaskTracker 

e YARN NodeManager 


e Impala Daemon 














e HBase RegionServer 
e Accumulo TabletServer 


。 SolrServer 


由 于 这 些 角色 负责 处 理 用 户 的 数据 和 处 理 请 求 ， 所 以 表面 上 看 ， 好 像 所 有 集群 用 户 都 需要 
访问 这 些 节 点 ， 然 而 并 非 如 此 。 通 常 只 有 管理 员 才 需要 远程 访问 工作 节点 以 执行 维护 任 
务 ， 而 终端 用 户 可 以 通过 相关 的 接口 和 API 进行 数据 接收 、 任 务 提交 和 记录 检索 。 大 多 数 
情况 下 ， 服 务 会 提供 一 种 代理 机 制 ， 人 允许 管理 员 将 用 户 活动 定向 到 实际 工作 节点 之 外 的 一 
系列 其 他 节点 。 有 具体 细节 稍 后 详细 阐述 。 这 些 代理 代表 用 户 与 工作 节点 进行 通信 ， 从 而 消 
除了 直接 访问 的 必要 。 


与 主 市 点 一 样 ， 合 理 的 做 法 是 仅 限 管理 员 访 问 工作 闻 点 ， 理 由 如 下 。 


资源 争 用 
当 普通 终端 用 户 在 工作 节点 上 的 预期 进程 之 外 进行 活动 时 ， 可 能 造成 资源 管理 失衡 。 例 
A, YARN 可 被 配置 成 使 用 特定 数量 的 系统 资源 ， 具 体 数量 是 Hadoop 管理 员 根 据 操作 
系统 和 其 他 软件 的 实际 需要 计算 的 。 但 终端 用 户 的 活动 如 何 计算 ? 通常 很 难 精确 描绘 和 
计算 用 户 活 动 ， 因 此 ， 很 可 能 使 用 率 高 的 工作 节点 相 比 未 被 使 用 的 工作 节点 运行 得 不 是 
很 好 ， 或 者 无 法 预测 。 


工作 角色 失衡 
如 果 终 端 用 户 使 用 工作 节点 进行 日 常 活动 ， 可 能 造成 工作 节点 角色 行为 上 的 不 良 失衡 。 
例如 ， 如 果 终 端 用 户 经 常 登录 某 一 个 特定 的 、 运 行 着 DataNode 角色 的 工作 节点 ， 那 么 
从 该 节点 接收 数据 就 会 产生 磁盘 使 用 的 失衡 。 因 为 HDFS 写 操作 将 会 在 选择 集群 中 其 他 
位 置 之 前 ， 先 尝试 写 入 本 地 的 第 一 个 区 块 。 这 意味 着 ， 如 果 一 个 用 户 尝试 上 传 一 个 10 GB 
的 文件 到 HDFS 的 home 目录， 这 10 GB 都 会 被 写 到 本 地 接收 数据 的 DataNode。 
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3.9.8 ”管理 节点 


管理 市 点 是 管理 员 的 命脉 。 这 些 市 点 提供 了 安装 、 配 置 、 监 控 和 维护 Hadoop 集群 的 机 制 。 
这 些 节 点 上 的 典型 角色 如 下 。 




















。 配置 管理 
。 监控 

。 警告 

。 软件 仓库 
。 备份 数据 库 











这 些 管理 市 点 通常 包含 集群 的 软件 仓库 ， 尤 其 是 在 Hadoop 集群 节点 没有 互联 网 访问 权限 
的 情况 下 。 管 理 节点 最 重要 的 职能 是 配置 管理 软件 。 不 管 是 Hadoop 专用 的 (如 Cloudera 
Manager, Apache Ambari) 还 是 非 专用 的 〈 如 Puppet. Chef), ， 都 是 管理 员 建立 和 配置 集群 
的 地 方 。 配 置 管理 的 必然 结果 是 监控 和 警告 ， 这 些 角 色 由 Ganglia, Nagios 以 及 Hadoop 专 














用 管理 控制 台 等 软件 包 提 供 。 






































此 处 仍 要 强调 : 这 些 节点 不 是 给 普通 用 户 的 。Hadoop 集群 的 管理 和 维护 是 一 项 管理 职 
能 ， 因 此 也 应 当 被 作为 管理 职能 得 到 保护 。 尽 管 如 此 ， 也 有 一 些 例外 。 一 种 常见 的 例外 
是 ， 开 发 者 拥有 集群 监控 仪表 板 的 访问 权限 ， 从 而 在 作业 运行 时 监控 相关 指标 ， 确 认 代 








码 性 能 水 平 。 


3.3.4 边界 节点 














边界 节点 受到 所 有 Hadoop 集群 用 户 的 关心 ， 这 些 节 点 包含 了 最 终 为 用 户 提供 Hadoop 存储 


和 计算 系统 利用 机 制 的 Web 接口 、 代 到 


* HDFS HttpFS 和 NFS 网 关 

* Hive HiveServer2 和 WebHCatServer 
* Impala 网 络 代理 / 负载 均衡 器 

。 Hue Server 和 Kerberos 要 据 更 新 器 
e Oozie Server 

e HBase Thrift Server 和 REST Server 
e Flume Agent 

。 客户 端 配 置 文件 








和 客户 端 配置 。 边 界 节 点 上 通常 有 如 下 角色 。 





看 到 边界 节点 上 常见 的 角色 列表 时 ， 会 明显 发 现 ， 这 种 节点 类 型 与 其 他 节点 有 些 不 同 。 与 
其 他 节点 类 型 的 情况 不 同 的 是 ， 各 个 边界 节点 通常 都 大 相 径 庭 。 例 如 ， 使 用 Flume 代理 的 
接收 管道 通常 会 在 用 户 不 能 访问 的 边界 节点 上 ， 而 包含 便于 命令 行 访问 的 客户 端 配置 的 边 
界 节 点 则 应 当 是 用 户 可 访问 的 。 边界 节点 组 内 的 节点 分 类 需要 多 么 细致 ”取决 于 很 多 因 


素 ， 包 括 集群 规模 和 具体 用 例 。 以 下 是 
数据 网 关 


HDFS HttpFS fll NFS 网 关 、HBase Thrift Server FU REST Server, Flume 代理 


SQL 网 关 


对 边界 节点 进行 进一步 分 类 的 例子 。 




















Hive HiveServer2 和 WebHCatServer, Impala 负载 均衡 代理 (如 HAProxy) 


用 户 门户 
Hue Server 和 Kerberos SHEE PA. 


Oozie Server、 客 户 端 配 置 文件 
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虽然 Impala 守护 进程 不 一 定 必须 与 HDFS DataNode 搭配 使 用 ， 但 不 建议 使 
用 独立 的 Inpala 守护 进程 作为 代理 。 更 好 的 选择 是 ， 使 用 负载 均衡 代理 作为 
负载 均衡 器 ， 如 HAProxy。 当 客户 由 于 防火 墙 或 其 他 限制 无 法 直接 连接 工作 
节点 上 的 Impala 服务 时 ， 推 荐 使 用 这 种 架构 。 

















使 用 上 面 给 出 的 额外 边界 节点 分 类 ， 可 以 很 容易 划分 出 哪些 节点 上 用 户 理应 有 对 甚 的 远程 
访问 权限 ， 哪 些 节 点 只 能 通过 配置 的 远程 端口 进行 远程 访问 。 虽 然 用 户 需要 远程 访问 门户 
节点 ， 以 通过 控制 台 与 集群 进行 交互 ， 但 数据 和 SQL 网 关 不 能 通过 这 种 方式 访问 是 有 道理 
的 。 这 些 节点 只 能 通过 远程 端口 访问 ， 以 便于 访问 在 用 户 门户 运行 的 命令 行 工具 ， 和 可 能 
处 在 网 络 中 其 他 位 置 的 其 他 商业 智能 工具 。 

以 上 的 分 组 只 是 示例 ， 重 要 的 是 ， 不 仅 要 了 解 安 装 在 集群 中 的 服务 ， 还 要 知道 这 些 服务 是 
如 何 使 用 、 被 谁 使 用 的 。 这 又 绕 回 之 前 关于 了 解 用 户 和 运行 环境 的 讨论 了 。 


3.4 操作 系统 安全 


本 市 将 探讨 如 何在 操作 系统 层 保 护 各 个 市 点 。 


3.4.1 远程 访问 控制 

典型 的 服务 器 环境 中 ， 远 程 访问 控制 比较 简单 。 比 如 ， 一 个 运行 RDBMS 或 Web 服务 的 服 
务 器 通常 是 对 终端 用 户 锁 定 的 ， 只 允许 特权 用 户 以 及 管理 员 登 录 。 而 Hadoop 环境 没有 这 
么 简单 。 由 于 Hadoop 生态 系统 的 内 在 复杂 性 ， 除 了 基本 管理 的 典型 角色 和 职责 之 外 ， 还 
有 无 数 工具 和 访问 方法 可 以 与 集群 进行 交互 。 虽 然 Hadoop 集群 可 能 包括 成 千 上 万 的 节点 ， 
但 正如 本 节 稍 后 将 讲述 的 ， 这 些 节 点 是 可 以 被 分 组 的 。 考 虑 到 这 一 点 ， 确 定 哪些 机 器 需要 
以 及 为 什么 需要 被 访问 ， 并 依 此 限制 对 机 器 的 远程 访问 就 很 重要 了 。 


3.4.2 主机 防火 墙 

远程 访问 控制 是 限制 哪些 用 户 可 以 登录 集群 中 特定 机 器 的 好 方法 。 这 固然 是 有 用 和 必需 
的 ， 但 只 是 保护 集群 中 特定 机 器 方法 的 一 小 部 分 。 主 机 防火 墙 是 限制 进出 节点 网 络 流量 类 
型 的 一 种 十 分 有 用 的 工具 。Linux 系统 中 ， 主 机 防火 墙 通常 是 利用 iptables 实现 的 。 当 然 
也 有 其 他 第 三 方 软件 包 可 以 实现 该 功能 (如 商业 软件 )， 但 我 们 将 关注 的 重点 放 在 iptables 
上 ， 因 为 它 在 大 多 数 Linux 发 行 版 中 都 是 默认 提供 的 。 
要 使 用 iptables， 首 先 要 对 Hadoop 集群 中 的 网 络 流量 进行 理解 和 分 类 。 表 3-1 展示 
T Hadoop 生态 系统 组 件 常用 的 端口 。 我 们 将 用 这 张 表 开 始 建立 iptables 的 主机 防火 
墙 策略 。 










































































表 3-1: Hadoop 服 务 常见 端口 








组 件 服务 端口 
Accumulo Master 9999 
GarbageCollector 50091 
Tracer 12234 
ProxyServer 42424 
TabletServer 9997 
Monitor 4560, 50095 
Cloudera Impala Catalog Server 25020, 26000 
StateStore 24000, 25010 
Daemon 21000, 21050, 22000, 23000, 25000, 28000 
Llama ApplicationMaster 15000, 15001, 15002 
Flume Agent 41414 
HBase Master 60000, 60010 
REST Server 8085, 20550 
Thrift Server 9090, 9095 
RegionServer 60020, 60030 
HDFS NameNode 8020, 8022, 50070, 50470 
SecondaryNameNode 50090, 50495 
DateNode 1004, 1006, 50010, 50020, 50075, 50475 
JournalNode 8480, 8485 
HttpFS 14000, 14001 
NFS Gateway 111, 2049, 4242 
KMS 16000, 16001 
Hive Hive Metastore Server 9083 
HiveServer2 10000 
WebHCat Server 50111 
Hue Server 8888 
MapReduce JobTracker 8021, 8023, 9290, 50030 
FailoverController 8018 
TaskTracker 4867, 50060 
Oozie Server 11000, 11001, 11443 
Sentry Server 8038, 51000 
Solr Server 8983, 8984 
YARN ResourceManager 8030, 8031, 8032, 8033, 8088, 8090 
JobHistory Server 10020, 19888, 19890 
NodeManager 8040, 8041, 8042, 8044 
Zookeeper Server 2181, 3181, 4181, 9010 
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有 了 以 上 常用 端口 后 ， 我 们 应 当 了 解 需 要 实施 多 么 严格 的 策略 。 配 置 iptables 规则 包括 端 
口 和 下 地址 ， 以 及 通信 方向 。 一 个 最 基本 的 防火 墙 策 略 允 许 任 意 主 机 访问 被 允许 的 端口 
并 且 允 许 所 有 返回 的 (已 建立 连接 的 ) 流量 。 一 个 HDFS NameNode 的 iptables 策略 可 外 
看 起 来 和 示例 3-1 差不多 。 


示例 3-1 基本 的 NameNode iptables 策略 
iptables -N hdfs 











GG + 





iptables -A hdfs -p tcp -s 0.0.0.0/0 --dport 8020 -j ACCEPT 
iptables -A hdfs -p tcp -s 0.0.0.0/0 --dport 8022 -j ACCEPT 
iptables -A hdfs -p tcp -s 0.0.0.0/0 --dport 50070 -j ACCEPT 
iptables -A hdfs -p tcp -s 0.0.0.0/0 --dport 50470 -j ACCEPT 


iptables -A INPUT -j hdfs 


该 策略 很 宽松 ， 它 允许 所 有 主机 (0.0.0.0/0) 通过 常用 的 HDFS NameNode 服务 端口 连接 
到 机 器 上 。 然 而 ， 这 个 策略 可 能 太 开 放 了 。 假 定 Hadoop 集群 节点 都 在 子 网 10.1.1.0/24 中 ， 
并 且 一 个 用 于 集群 通信 的 专用 边界 节点 设置 在 主机 10.1.1.254 上 。 此 外 ，Web 控制 台 开启 
了 SSL。 那 么 这 个 NameNode 机 器 的 调整 后 的 iptables 策略 可 能 会 如 示例 3-2 所 示 。 


示例 3-2 安全 的 NameNode iptables 策略 


iptables -N hdfs 

iptables -A hdfs -p tcp 
iptables -A hdfs -p tcp 
iptables -A hdfs -p tcp 
iptables -A hdfs -p tcp 
iptables -A INPUT -j hdfs 


调整 后 的 策略 要 严格 得 多 。 它 允许 任意 用 户 通过 SSL (50470 端口 ) 连接 到 NameNode 
Web 控制 台 ， 仅 人 允许 集群 机 器 通过 专用 的 DataNode RPC 端口 (8022) 连接 到 NameNode, 
并 且 仅 允许 来 自 边 界 节 点 的 流向 NameNode RPC 端口 (8020) 的 用 户 流量 。 


10.1.1.254/32 --dport 8020 -j ACCEPT 
10.1.1.254/32 --dport 8022 -j DROP 
10.1.1.0/24 --dport 8022 -j ACCEPT 
0.0.0.0/0 --dport 50470 -j ACCEPT 





为 了 使 策略 生效 ， 可 能 需要 将 iptables 跳 转 目标 插入 INPUT 部 分 的 特定 行 号 。 
此 处 为 了 简便 ， 仅 展示 了 追加 (Append) 操作 。 








3.4.3 SELinux 


另外 一 个 经 常 被 讨论 的 关于 操作 系统 安全 的 内 容 是 安全 增强 型 Linux (SELinux), ， 最 早 
由 美国 的 情报 机 构 一 一 美国 国家 安全 局 (NSA) 开发 。SELinux 的 前 提 是 提供 Linux 内 核 
增强 ， 从 而 允许 强制 访问 控制 (MAC) 的 策略 和 实施 。SELinux 大 致 可 以 配置 为 以 下 几 
种 方式 。 
禁用 (Disabled) 
这 种 模式 下 ，SELinux 不 生效 ， 也 不 给 操作 系统 提供 任何 额外 的 安全 级 别 。 这 是 
Hadoop 中 极为 普遍 的 配置 方式 。 




















许可 (Permissive) 

这 种 模式 下 ，SELinux 是 启用 状态 ， 但 不 对 系统 进行 保护 ， 而 在 策略 被 违反 时 打印 警 

告 。 对 于 从 了 解 系统 中 工作 负载 类 型 入手 ， 以 建立 自 定 义 策 略 来 说 ， 这 种 模式 很 有 用 。 
强制 (Enforcing) 

这 种 模式 下 ，SELinux 是 启用 状态 ， 并 根据 特定 的 SElinux 策略 对 系统 进行 保护 。 
除了 许可 和 强制 两 种 启用 模式 之 外 ，SELinux 还 有 两 种 不 同 的 强制 实施 类 型 针对 性 强制 
实施 (targeted enforcement) 和 多 级 安全 (multilevel security，MLS) 。 针 对 性 强制 实施 仅 
针对 特定 进程 ， 这 意味 着 ， 这 些 进 程 具有 相关 策略 进行 保护 ， 没 有 策略 的 进程 则 不 会 被 
SELinux 保护 。 这 种 保护 模式 显然 不 那么 严格 。 另 一 方面 ，MLS 则 更 为 深入 。 总 体 而 言 ， 
MLS 的 前 提 是 所 有 用 户 和 进程 都 具有 一 个 安全 级 别 ， 同 时 ， 文 件 和 其 他 对 象 都 具有 一 个 安 
全 级 别 需 求 。MLS 仿照 美国 政府 的 分 级 标准 ， 如 绝密 (Top Secret), 、 机 密 (Secret), 、 秘 密 
(Confidential) 和 非 密 (Unclassified) 。 美 国政 府 的 分 级 系统 中 ， 这 些 级 别 形 成 一 种 等 级 架 
构 。 这 种 架构 中 ， 具 有 特定 访问 级 别 的 用 户 具 有 访问 较 低 级 别 信息 的 权限 。 例 如 ， 如 
个 用 户 具 有 机 密 安 全 级 ， 那 么 该 用 户 被 允许 访问 操作 系统 中 机 密 、 秘 密 和 非 密 的 对 象 一 一 
因为 秘密 和 非 密 的 安全 级 别 都 比 机 密 低 ， 但 该 用 户 无 法 访问 标记 为 “绝密 ”安全 级 的 对 象 。 
这 些 听 起 来 很 好 ， 但 与 Hadoop 有 什么 关系 呢 ? SELinux 能 否 被 用 作 运行 各 种 Hadoop 生态 
系统 组 件 的 操作 系统 的 额外 保护 层 呢 ? 简短 的 回答 是 : 不 太 能 。 并 不 是 说 不 可 能 ， 而 是 承 
认 在 这 一 点 上 缺乏 SELinux 安全 集成 以 及 相关 〈 可 被 安全 管理 员 部 署 到 集群 中 的 ) 策略 创 
建 方面 的 发 展 。Hadoop 生态 系统 的 本 质 才 是 问题 所 在 。 目 前 有 数 以 百 计 的 组 件 、 工 具 和 
其 他 部 件 以 这 样 那样 的 方式 集成 到 平台 ， 并 /或 对 平台 进行 增强 。 加 进来 的 工具 越 多 ， 想 
出 一 系列 SELinux 策略 对 其 进行 全 部 管理 的 难度 就 越 大 。 
如 果 非 要 这 么 用 ， 可 能 的 方法 是 ， 将 系统 设置 为 许可 模式 ， 并 在 集群 中 运行 相当 于 “ 普 
通 ” 级 别 的 、 使 用 了 尽 可 能 多 的 给 定 环境 中 的 典型 工具 的 工作 任务 。 这 样 运行 一 段 合适 的 
时 间 后 ， 即 可 使 用 SELinux 生成 的 警告 开始 建立 策略 。 此 处 的 问题 是 ， 这 很 快 会 变 成 一 个 
枯燥 乏味 的 过 程 ， 而 且 每 当 引 入 新 的 组 件 或 功能 时 ， 都 要 对 该 过 程 进行 修改 。 


3.5 小结 


本 章 从 定义 Hadoop 所 在 的 操作 系统 环境 开始 ， 粗 略 地 分 析 了 Hadoop 环境 。 然 后 从 网 络 安 
全 角度 讨论 了 对 该 环境 的 保护 ， 包 括 利 用 常见 的 安全 实践 〈 如 网 络 划分 )、 介 绍 防火 墙 和 
IDS/IPS 等 网 络 安全 设备 。 随 后 了 解 了 如 何 根据 运行 的 服务 类 型 将 Hadoop 集群 分 成 不 同 的 
节点 组 。 最 后 给 出 了 根据 节点 分 组 保护 单个 节点 操作 系统 的 建议 。 

第 4 章 将 介绍 Hadoop 安全 架构 中 的 一 个 基础 组 件 : Kerberos。Kerbero 是 企业 系统 中 的 一 
个 关键 成 员 ，Hadoop 也 不 例外 。 下 一 章 将 会 结束 关于 安全 架构 的 讨论 ， 为 认证 、 授 权 和 
审计 和 奠定 基础 。 
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Kerberos 








第 一 次 提 Kerberos 的 时 候 ， 甚 至 那些 有 经 验 的 系统 管理 员 和 开发 者 都 会 被 吓 到 。 依 赖 
Kerberos 的 应 用 程序 和 系统 经 常会 有 很 多 需要 解决 相关 问题 的 求助 电话 和 故障 单 。 本 章 将 
介绍 基本 的 Kerberos 概念 ， 这 对 理解 强 认证 是 如 何 工 作 的 很 有 必要 ， 也 会 阐述 Kerberos 在 
第 5 章 中 的 Hadoop 认证 中 如 何 发 挥 重 要 作用 。 


那么 Kerberos 究竟 是 什么 ? 在 神话 里 ，Kerberos 是 Cerberus 的 希腊 语 ， 是 一 只 守护 地 狱 
入 口 的 三 头 巨 犬 ， 它 确保 没有 人 能 在 进入 地 狱 后 离开 。 从 技术 角度 (这 个 角度 更 轻松 一 
些 ) 来 说 ，Kerberos 是 麻 省 理工 学 院 开发 的 一 个 认证 机 制 。Kerberos 发 展 成 为 大 大 小 小 的 
计算 机 系统 强 认证 的 实际 标准 ， 有 具有 很 多 不 同 的 实现 ， 包 括 从 MIT 的 Kerberos 分 发 到 微 
软 的 活动 目录 认证 组 件 。 


4.1 为 什么 是 Kerberos 


为 什么 Hadoop 需要 Kerberos ? 看 看 Hadoop 认证 的 默认 模型 ,原因 就 很 明显 了。 提交 给 
Hadoop 一 个 用 户 名 时 ， 它 会 很 高 兴 地 相信 你 所 说 的 一 切 ， 并 且 确 保 整个 集群 的 所 有 其 他 
机 器 也 相信 。 
打 个 比方 ， 如 果 在 聚会 中 ,一 个 人 接近 你 并 自我 介绍 为 Bi 地， 你 自然 会 相信 他 确实 是 
Bil。 你 怎么 知道 他 确实 是 BL?” 因 为 他 是 这 么 说 的 ， 而 且 你 毫 无 疑问 地 相信 了 他 。 缺 少 
Kerberos 的 Hadoop 差不多 也 是 这 样 ， 不 同 的 是 它 还 做 了 进一步 类 推 ， 不 仅 相信 他 就 是 他 
自己 所 说 的 B 鹿 ， 还 保证 其 他 人 也 都 相信 。 这 是 个 问题 。 

Hadoop 的 设计 初 圳 是 存储 和 处 理 PB 级 的 数据 。 老 话说 得 好 ,“ 能 力 越 大 ， 责 任 越 大 ”。 企 
业 中 的 Hadoop 不 能 再 使 用 过 于 简单 方法 来 识别 (和 信任 ) 用 户 了 。 之 前 的 比喻 中 ，Bill 
向 你 介绍 了 他 自己 。 这 时 候 ， 如 果 你 要 求 看 他 的 有 效 证 件 ， 并 在 收 到 证 件 之 后 (这 很 自 
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然 ， 因 为 每 个 人 参加 聚会 时 都 会 带 证 件 ……) 利用 数据 库 验证 其 有 效 性 ， 会 怎样 呢 ? 这 就 
和 Hadoop 通过 添加 Kerberos 认证 引入 的 身份 验证 是 一 样 的 。 


4.2 Kerberos Us 


万 事 俱 备 ， 现 在 深入 讨论 和 理解 Kerberos 是 如 何 工 作 的 。 正 如 你 可 能 想到 的 那样 ， 
Kerberos 的 实现 是 一 种 客户 端 /服务 端 架构 。 对 Kerberos 组 成 部 分 进行 详细 分 解 之 前 ， 先 
介绍 一 些 Kerberos 术语 。 

首先 ，Kerberos 中 的 身份 标识 称 为 主体 (principal) ， 每 个 参与 Kerberos 认证 协议 的 用 户 
和 服务 都 需要 一 个 主体 来 唯一 地 标识 自己 。 主 体 分 为 两 种 : 用 户主 体 和 服务 主体 。 用 户主 
体 名 称 (user principal name，UPN) 代表 常规 用 户 ， 类 似 于 操作 系统 中 的 用 户 名 或 者 账 
号 。 服 务 主体 名 称 (service principal name，SPN) 代表 用 户 需 要 访问 的 服务 ， 例 如 特定 
服务 器 上 的 数据 库 。 稍 后 会 通过 一 个 例子 更 清楚 地 说 明 UPN 和 SPN 的 关系 。 


接 下 来 一 个 重要 的 Kerberos 术语 是 域 (realm)。 一 个 Kerberos 域 就 是 一 个 身份 验证 管理 
域 ， 所 有 主体 都 被 分 配 到 特定 的 Kerberos 域 。 域 确立 了 边界 ， 这 使 得 管理 更 为 容易 。 
确定 了 什么 是 主体 和 域 之 后 ， 下 一 步 自 然 是 和 弄 清 楚 存储 和 控制 这 些 信息 的 是 什么 。 答 案 是 
密 钥 分 发 中 心 (key distribution center, KDC), KDC 由 三 部 分 组 成 : Kerberos 数据 库 、 
认证 服务 (authentication service, AS) 和 妹 据 授予 服务 (ticket-granting service, TGS), 
Kerberos 数据 库存 储 的 内 容 包含 主体 及 其 所 属 域 的 所 有 相关 人 信息， 数据库 中 的 Kerberos 域 
使 用 如 下 命名 约定 进行 标识 。 
alice@EXAMPLE.COM 
唯一 标识 了 Kerberos 域 EXAMPLE.COM 中 用 户 (也 叫 作 短 名 称 ) alice AY UPN. fk HATH 
例 ， 域 名 总 为 大 写 。 
bob/admin@EXAMPLE.COM 
一 种 常规 UPN 的 变形 ， 标 识 了 域 EXAMPLE.COM 中 一 个 管理 员 bob, UPN 中 的 和 斜 杜 (/) 
用 于 分 隔 短 名 称 和 管理 员 标 识 。 通 常会 约定 使 用 admin 表示 管理 员 ， 但 稍 后 会 看 到 ， 
也 是 可 以 配置 的 。 
hdfs/node1.example.comQEXAMPLE. COM 
该 主体 表示 一 个 hdfs 服务 的 SPN， 该 服务 在 Kerberos 域 EXAMPLE . COM 中 的 主机 node1. 
example.com E, SPN 中 的 斜 杠 (/) 用 于 分 隔 短 名 称 hdfs 和 主机 名 node.example.com, 


整个 主体 名 都 是 大 小 写 敏 感 的 。 例 如 hdfs/Node1.Hadoop.com@EXAMPLE.COM 和 
第 三 个 例子 中 的 主体 是 不 一 样 的 。 一 般 情 况 下 ， 最 好 在 主体 的 域 部 分 使 用 大 
写 ， 其 他 部 分 使 用 小 写 。 值 得 注意 的 是 ，SPN 中 涉及 的 主机 名 当然 也 是 小 写 
的 ， 在 主机 命名 和 DNS (域名 解析 ) 时 最 好 也 这 样 。 
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KDC 的 第 二 部 分 一 一 AS 一 一 负责 在 客户 端 向 AS 发 起 请 求 时 ， 向 客户 端 发 放 票 据 授予 村 
te. TGT 用 于 请 求 访问 其 他 服务 。 
KDC 的 第 三 部 分 一 一 TGS 负责 验证 TGT， 并 授予 服务 票据 (service tickets)。 服 务 票 
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a. 的 主体 使 用 应 用 服务 器 提供 的 服务 ， 该 服务 通过 SPN 进行 标识 。 下 一 节 将 介 
绍 获得 TGT、 提 交 给 TGS 以 及 获取 服务 票据 的 流程 ， 现 在 只 需 了 解 KDC 有 两 部 分 : AS 
和 TGS， 负 责 处 理 认 证 和 访问 服务 的 请 求 。 


Kerberos 数据 库 中 有 一 种 特种 格式 的 主体 krbtgt/<REALM>@<REALM>， 例 如 
krbtgt/EXAMPLE.COM@EXAMPLE.COM。 该 主体 是 AS 和 TGS 内 部 使 用 的 ， 其 关 
键 之 处 在 于 ， 它 被 用 来 加 密 发 放 给 客户 端的 TGT 内 容 ， 这 保证 了 AS 发 放 的 
TGT 只 能 被 TGS 验证 。 












































表 4-1 简要 提供 了 本 章 涉及 的 Kerberos 术语 及 其 缩写 。 
表 4-1: Kerberos 术 语 缩写 












































术语 名 称 描述 

UPN 用 户主 体 名 定义 给 定 域 中 一 个 用 户 的 主体 ， 格 式 为 < 短 名 称 ><@ 域 > 或 < 短 名 称 >/ 
admin@< 域 > 

SPN ”服务 主体 名 ”定义 给 定 域 中 特定 主机 上 一 个 服务 的 主体 ,格式 为 < 短 名 称 >/< 主 机 名 >@ 
eA 

TGT 票据 授予 票据 。 AS 认证 成 功 后 授予 用 户 的 一 种 特殊 票据 

KDC 密 钥 分 发 中 心 一 种 Kerberos 服务 器 ， 包 含 3 部 分 : Kerberos 数据 库 、AS 和 TGS 

AS 认证 服务 分 发 TGT 的 KDC 服务 

TGS 票据 授予 服务 MUE TGT 和 授予 服务 票据 的 KDC 服务 


























之 前 展示 的 是 一 些 基本 的 Kerberos 组 件 ， 这 些 组 件 是 粗略 理解 认证 机 制 所 需 的 。Kerberos 
本 身 是 一 个 很 深入 和 复杂 的 话题 ， 值 得 用 一 整 本 书 介绍 。 好 在 已 经 有 人 这 么 做 了 ， 如 果 你 
想 更 深入 地 了 人 解 Kerberos， 可 以 参考 Jason Garman 的 著作 Kerberos: The Definitive Guide. 


4.3 Kerberos Litt: 一 个 简单 示例 


现在 通过 一 个 工作 流 示例 ， 展 示 Kerberos 大 概 是 怎么 工作 的 。 首 先 定义 所 有 出 现 的 组 件 。 


EXAMPLE . COM 
Kerberos 域 。 











Alice 
一 个 系统 用 户 ， 其 UPN 为 alice@EXAMPLE.COM, 


myservice 
serveri.example.com 上 运行 的 一 个 服务 ， 其 SPN 为 myservice/server1.example.comQ 
EXAMPLE.COM, 


kdc.example.com 
Kerberos Ji EXAMPLE.COM AY) KDC, 


Alice 要 想 使 用 myservtce， 需 要 癌 myservice 提供 一 个 有 效 的 服务 票据 ， 具 体 方法 如 下 所 
述 (为 了 简便 ， 此 处 省 略 部 分 细节 ) 。 
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(D Alice 需要 获取 一 个 TGT。 为 此 ， 她 向 kdc.example.com 上 的 AS 发 起 一 个 请 求 ， 表 明 
己 是 主体 alice@EXAMPLE.COM。 

(2) AS 做 出 响应 ， 为 主体 alice@EXAMPLE.COM 提供 一 个 使 用 密 钥 (密码) 加 密 的 TGT。 

(3) 接收 到 加 密 信息 后 ，Alice 被 提示 输入 主体 alice@EXAMPLE.COM 的 正确 密码 ， 从 而 解密 
信息 。 

(4) 成功 解密 包含 TCT 的 信息 后 ，Alice 向 kdc.example.com 上 的 TGS 请 求 服务 myservice/ 
server1.example.comQEXAMPLE.COM 的 一 个 服务 要 据 ， 并 在 请 求 中 提供 出 TGT 信息 。 

(5) TGS 对 TGT 进行 验证 ， 并 提供 给 Alice 一 个 使 用 主体 myservice/server1.example.com@ 
EXAMPLE. COM 的 密 钥 加 密 的 服务 票据 。 

(6) Alice 现在 将 服务 票据 提供 给 myservice, myservice 随后 使 用 myservice/server1. 
example. com@EXAMPLE.COM 的 密 钥 对 其 解密 ， 并 验证 票据 有 效 性 。 

(7) 由 于 Alice 已 经 正确 验证 其 身份 ， 因 此 服务 myservice 允许 其 使 用 。 


以 上 大 致 描述 了 Kerberos 是 如 何 工作 的 。 显 然 ， 这 是 一 个 大 大 简化 了 的 例子 ， 很 多 底层 的 
细节 设 有 得 到 展示 。 图 4-1 展示 了 这 个 例子 的 序列 图 。 


ID 













































































1 
1 


(1) alice@EXAMPLE.COM 


(2) 加 密 的 TGT 








TGT(alice@EXMPLE.COM) 


| 1 
| 票据 (alice, myservice/server1.example.com) 



















图 4-1; Kerberos 工作 流 示例 


4.4 Kerberos 信 任 


目前 为 止 ， 我 们 介绍 的 Kerberos 都 默认 所 有 用 户 和 服务 处 于 同一 Kerberos 域内 。 虽 然 这 
很 适合 入 门 ， 但 考虑 到 庞大 的 公司 规模 ， 这 通常 是 不 符合 实际 的 。 随 着 时 间 的 发 展 ， 大 公 
司 最 终 通过 合并 、 收 购 ， 或 仅仅 想 分 隔 公 司 的 不 同 部 分 ， 将 形成 多 个 Kerberos 域 。 然 而 ， 














33 | 第 4 章 


KDC 默认 情况 下 只 知道 自身 的 域 ， 以 及 自身 数据 库 包 含 的 主体 。 那 么 ， 当 一 个 域 中 的 用 
户 想 要 使 用 另外 一 个 域 控 制 下 的 服务 ， 该 怎么 办 呢 ? 为 了 实现 这 个 目标 ， 两 个 域 之 间 需 要 
Kerberos 信任 (trust) 。 


例如 ， 假 定 Example 是 一 个 很 大 的 公司 ， 并 且 决 定 创建 多 个 域 表 示 不 同业 务 线 ， 包 括 
HR. EXAMPLE . COM 和 MARKETING.EXAMPLE.COM。 因 为 这 两 个 域 的 用 户 有 可 能 都 需要 访问 两 个 域 的 服 
务 ， 因 此 HR. EXAMPLE.COM 的 KDC 需要 信任 来 自 MARKETING. EXAMPLE.COM 域 的 信息 ， 反 之 亦 然 。 


表面 上 看 起 来 很 简单 ， 但 其 实 信 任 有 两 种 类 型 : 单 向 信任 (one-way trust) 和 双向 信任 
(two-way trust， 或 者 bidirectional trust、full trust) 。 我 们 刚才 看 的 例子 是 一 种 双向 信任 。 


如 果 还 有 一 个 DEV.EXAMPLE.COM 域 ， 其 中 的 开发 者 主体 需要 访问 DEV.EXAMPLE.COM 和 
MARKETING. EXAMPLE.COM 域 ， 而 营销 用 户 不 能 访问 DEV. EXAMPLE.COM SWE? 这 种 场景 就 需要 
单 向 信任 。 单 向 信任 在 Hadoop 部 署 中 很 常见 ，KDC 被 安装 配置 成 包含 集群 节点 SPN 的 所 
有 信息 ， 但 所 有 终端 用 户 的 UPN 都 在 另外 一 个 域 ， 例 如 Active Directory (活动 目录 ) 中 。 
通常 ，Active Directory 管理 员 或 公司 政策 会 出 于 种 种 原因 禁止 双向 信任 。 


那么 Kerberos 信任 是 如 何 实 际 建立 的 呢 ? 本 章 之 前 提 到 过 ， 有 一 种 特殊 的 主体 被 AS 和 
TGS 内 部 使 用 ， 其 格式 是 krbtgt/< 域 >@< 域 >。 这 个 主体 在 建立 信任 时 更 为 重要 ， 此 时 ， 
该 主体 的 格式 变 为 krbtgt/< 信任 域 >@< 被 信任 域 >。 该 主体 的 关键 之 处 在 于 ， 它 在 两 个 
域 中 都 存在 。 例 如 ， 如 果 HR.EXAMPLE.COM 域 需要 信任 MARKETING.EXAMPLE.COM 域 ， 那 么 主 
体 krbtgt/HR.EXAMPLE . COMQMARKETING. EXAMPLE . COM 需要 在 两 个 域 中 都 存在 。 





























krbtgt/< 信任 域 >@< 被 信任 域 > 主体 的 密码 和 加 密 类 型 必须 与 两 个 域 中 的 
都 一 样 ， 以 便 建 立信 任 。 











上 一 个 例子 展示 了 单身 信任 中 需要 什么 。 为 了 建立 双向 信任 ，krbtgt/MARKETING.EXAMPLE.， 
COMQHR. EXAMPLE . COM 主体 也 需要 在 两 个 域 中 都 存在 。 总 之 ， 为 了 使 HR.EXAMPLE.CONM 域 和 
NMARKETING.EXAMPLE.COM 域 具有 双向 信任 ， 两 个 域 都 需要 有 krbtgt/MARKETING.EXAMPLE. 
COMQHR .EXAMPLE.COM 和 krbtgt/HR.EXAMPLE .COM@MARKETING.EXAMPLE.COM 主体 。 


4.5 MIT Kerberos 


正如 本 章 开始 提 到 的 ，Kerberos FH MIT 首先 创造 。 这 些 年 来 ， 它 已 历经 数 次 修改 ， 当 前 最 
新 的 版 本 是 MIT Kerberos V5， 常 称 为 krb5。 本 节 将 介绍 MIT Kerberos 发 行 版 的 几 个 组 件 ， 
用 几 个 实际 案例 实践 之 前 介绍 的 概念 性 例子 。 





要 想 获得 关于 MIT Kerberos 发 行 版 的 最 新 权威 资源 ， 官 方 网 站 有 很 好 的 文档 
可 以 参考 (http://web.mit.edu/~kerberos/) 。 
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早先 的 例子 里 ， 我 们 忽略 了 一 件 事 一 一 Alice 发 起 了 认证 请 求 。 实 际 上 ，Alice 是 使 用 kinit 


工具 做 到 这 一 点 的 。 


示例 4-1 kinit (使 用 默认 用 户 ) 


[alice@server1 -]$ kinit 
Enter password for alice@EXAMPLE.COM: 
[alice@server1 -]$ 


该 例子 将 当前 的 Linux 用 户 名 alice 和 默认 域 合 到 一 起 ， 组 成 建议 的 主体 alice@EXAMPLE. 
COM。 稍 后 深入 讨论 配置 文件 时 ， 我 们 会 讲解 默认 域 。kinit 工具 也 允许 用 户 显 式 地 定义 主 
体 ， 以 进行 认证 ， 如 示例 4-2 所 示 。 


示例 4-2 kinit (使 用 特定 用 户 ) 


[alice@server1 ~]$ kinit alice/admin@EXAMPLE.COM 
Enter password for alice/admin@EXAMPLE.COM: 
[alice@server1 ~]$ 


如 上 所 示 ， 认 证 为 管理 员 用 户 时 ， 显 式 地 提供 主体 名 通常 是 必要 的 。 另 一 个 认证 方法 是 使 
用 keytab 文件 。keytab 文件 存储 了 可 被 用 于 代替 密码 的 加 密 密 钥 。 创 建 keytab 文件 对 于 
非 交 互 式 主体 很 有 用 ， 例 如 与 长 期 运行 着 的 进程 (如 Hadoop 服务 ) 相关 的 SPN. keytab 
文件 并 不 需要 一 一 映射 到 每 个 主体 ， 多 个 不 同 主体 的 密 钥 可 存储 在 一 个 keytab 文件 里 。 
用 户 可 以 在 使 用 kinit 的 时 候 指 定 keytab 文件 的 路 径 ， 以 及 要 认证 为 的 主体 名 称 (因为 
keytab 文件 中 可 能 存在 多 个 主体 ) ， 如 示例 4-3 所 示 。 


示例 4-3 kinit (使 用 keytab 文件 ) 


[alice@server1 ~]$ kinit -kt alice.keytab alice/admin@EXAMPLE.COM 
[alice@server1 ~]5$ 
































keytab 文件 允许 用 户 在 没有 密码 相关 知识 的 前 提 下 进行 认证 。 正 因 如 此 ， 
keytab 需要 用 适当 的 控制 手段 加 以 保护 ， 防 止 未 授权 用 户 使 用 其 进行 认证 。 
keytab 是 为 管理 员 主体 创建 的 时 候 ， 这 尤为 重要 。 



































MIT Kerberos 发 行 版 的 另 一 个 有 用 的 功能 称 为 kLtst。 该 功能 允许 用 户 查 看 他 们 的 证 书 
4 # (credentials cache) 中 的 Kerberos 证书 (如 果 有 )。 证 书 缓存 存放 在 本 地 文件 系 
统 中 ， 与 成 功 通 过 AS 验证 的 TGT 的 存储 位 置 相 同 。 上 默认 情况 下 ， 访 位置 通常 是 /tmp/ 
krbscc_<uid> 文件 ， 其 中 <uid> 是 本 地 系统 用 户 ID 号 。 成 功 执行 kinit 后 ，alice 可 以 使 
用 klist 查看 她 的 证 书 缓存 ， 如 示例 4-4 所 示 。 


示例 4-4 使 用 klist 查看 证 书 缓存 


[alice@server1 -]$ kinit 

Enter password for alice@EXAMPLE.COM: 
[alice@server1 -]$ klist 

Ticket cache: FILE:/tmp/krb5cc 5000 
Default principal: aliceQEXAMPLE. COM 








Valid starting Expires Service principal 
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02/13/14 12:00:27 02/14/14 12:00:27 krbtgt/EXAMPLE.COM@EXAMPLE.COM 
renew until 02/20/14 12:00:27 
[alice@server1 ~]$ 


如 果 用 户 在 没有 进行 认证 的 情况 下 尝试 查看 凭证 缓存 ， 则 找 不 到 任何 凭证 。 
示例 4-5” 找 不 到 凭证 


[alice@server1 ~]$ klist 
No credentials cache found (ticket cache FILE:/tmp/krb5cc 5000 
[alice@server1 -]$ 


MIT Kerberos 工具 箱 中 另 一 个 有 用 的 工具 是 kdestroy。 顾 名 思 义 ， 它 人 允许 用 户 销毁 凭证 缓 
存 中 的 赁 证。 这 在 切换 用 户 、 尝 试 或 调试 新 配置 的 时 候 很 有 用 (示例 4-6). 


示例 4-6 H kdestroy 销毁 凭证 缓存 


[alice@server1 ~]$ kinit 

Enter password for alice@EXAMPLE.COM: 
[alice@server1 ~]$ klist 

Ticket cache: FILE:/tmp/krb5cc 5000 
Default principal: aliceQEXAMPLE.COM 











Valid starting Expires Service principal 

02/13/14 12:00:27 02/14/14 12:00:27 krbtgt/EXAMPLE.COM@EXAMPLE.COM 
renew until 02/20/14 12:00:27 

[alice@server1 ~]$ kdestroy 

[alice@server1 ~]$ klist 

No credentials cache found (ticket cache FILE:/tmp/krb5cc_5000 

[alice@server1 ~]$ 


到 此 为 止 ， MIT Kerberos 的 示例 展示 了 甚 是 “能 用 ”的 。 隐 藏 在 这 些 示例 之 外 的 是 ， 为 了 
使 其 真正 工作 起 来 ， 不 管 在 客户 端 还 是 服务 端 都 还 需要 很 多 必要 的 配置 。 接 下 来 将 介绍 基 
本 配置 ， 从 而 把 之 前 介绍 的 一 些 概念 联系 起 来 。 


4.5.1 服务 端 配置 


Kerberos 服务 端 配置 主要 在 kdc.conf 文件 中 ， 如 示例 4-7 所 示 。 该 文件 在 Red Hat/CentOS 
系统 中 的 位 置 是 /var/kerberos/krbskdc/, 








示例 4-7  kdc.conf 


[kdcdefaults] 
kdc_ports = 88 
kdc_tcp_ports = 88 


[realms] 
EXAMPLE.COM = { 
acl_file = /var/kerberos/krb5kdc/kadm5.acl 
dict_file = /usr/share/dict/words 
supported enctypes = aes256-cts:normal aes128-cts:normal arcfour-hmac-md5:normal 
max renewable life - 7d 


} 
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配置 文件 的 第 一 节 kdcdefaults 包含 的 配置 适用 于 下 面 列 出 的 所 有 域 ， 除 非 某 个 域 的 配置 
包含 同样 配置 项 的 值 。 配 置 项 kdc_ports 和 kdc_tcp_ports 分 别 指定 了 KDC 监听 的 UDP 
和 TCP 端口 。 下 一 节 realms 则 包含 了 使 用 该 KDC 作为 服务 器 的 所 有 域 。 一 个 KDC 可 以 
支持 多 个 域 。 本 例 中 ， 域 的 配置 项 包括 如 下 内 容 。 




















acl_file 
该 项 指定 了 管理 服务 用 于 进行 访问 控制 的 文件 位 置 〈 稍 后 会 详细 介绍 ) 。 
dict_file 


该 项 指定 了 包含 不 允许 用 作 密 码 的 单词 的 文件 ， 这 些 密码 是 容易 被 破解 / 猜 解 的 。 
supported_enctypes 

该 项 指定 了 KDC 支持 的 所 有 加 密 类 型 。 与 KDC 交互 时 ， 客 户 端 必须 支持 该 项 列 出 的 

加 密 类 型 中 的 至 少 一 种 。 谨 慎 使 用 DES 等 弱 加 密 类 型 ， 因 为 这 种 加 密 很 容易 被 攻破 。 
max_renewable_life 

该 项 指定 了 票据 可 更 新 的 最 长 时 间 。 客 户 端 可 请 求 一 个 不 超过 该 长 度 的 更 新 有 效 期 。 典 

型 的 值 是 7 天 ， 用 7d 表示 。 


默认 情况 下 ，MIT Kerberos 中 的 加 密 选 项 通常 被 设 成 多 个 加 密 类 型 ， 其 中 包 
括 DES 等 弱 加 密 类 型 。 可 能 的 话 ， 尽 量 删 掉 弱 加 密 类 型 ， 以 尽 可 能 保证 安 
全 。 弱 加 密 类 型 容易 被 攻破 ， 这 已 经 被 证 明了 。 使 用 AES-256 时 ， 需 要 在 集 
群 的 所 有 节点 安装 Java Cryptographic Extensions， 以 允许 不 限 强 度 加 密 类 型 。 
值得 注意 的 是 ， 一 些 国 家 禁止 使 用 这 些 加 密 类 型 ， 请 遵守 你 所 在 国家 管理 加 
密 强 度 的 法 律 。 关 于 加 密 的 更 详细 讨论 参见 第 9 章 。 


























acl file 所 在 位 置 (通常 是 kadm5.acl 文件 ) 用 于 控制 哪些 用 户 具 有 管理 Kerberos 数据 库 
的 权限 。Kerberos 数据 库 管 理 员 由 两 条 不 同 但 相关 的 组 件 控制 : kadmin. local 和 kadmin, 
前 者 是 允许 KDC 服务 器 的 root 用 户 修改 Kerberos 数据 库 的 实用 工具 ， 顾 名 思 义 ， 它 只 能 
够 由 Kerberos 数据 库 所 在 机 器 的 root 用 户 执行 。 想 要 远程 管理 Kerberos 数据 库 的 管理 员 
必须 使 用 kadmin 服务 器 。 

Kadmin 服务 器 是 一 个 允许 远程 连接 并 管理 Kerberos 数据 库 的 守护 进程 ， 这 也 是 kadm5.acl 
文件 (示例 4-8) 发 挥 作用 的 地 方 。Kadmin 工具 使 用 Kerberos 认证 ， 而 kadm5. act 文件 则 
指定 了 哪些 UPN 被 允许 执行 特权 功能 。 












































示例 4-8  kadm5.acl 


* /admin@EXAMPLE.COM x 
cloudera-scm@EXAMPLE.COM * hdfs/*@EXAMPLE.COM 
cloudera-scm@EXAMPLE.COM * mapred/*@EXAMPLE.COM 


这 允许 来 自 EXAMPLE. COM 的 带 有 /admin 标识 的 任意 主体 执行 任意 管理 操作 。 虽 然 将 admin 
标识 改 成 其 他 任意 名 称 也 可 以 接受 ， 但 从 简单 性 和 可 维护 性 起 见 ， 还 是 建议 保持 这 种 约 
定 。 管 理 员 用 户 应 当 只 使 用 自己 的 管理 凭证 进行 具体 的 特许 操作 ， 就 像 在 Linux 中 ， 管 理 
员 不 能 使 用 root 用 户 的 凭证 进行 日 常 非 管理 操作 一 样 。 
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上 例 也 说 明 ，ACL 可 以 如 何 被 定义 以 限制 特定 主体 的 权限 。 它 展示 了 用 户 cLouderascm 可 
以 执行 任意 操作 ， 但 仅 限于 在 以 hdfs 和 mapred 开头 的 SPN 上 。 这 种 语法 类 型 有 助 于 问 第 
三 方 工具 授予 创建 和 管理 Hadoop 主体 的 权限 ， 但 不 授予 执行 所 有 管理 功能 的 权限 。 


如 前 所 述 ，kadmin 工具 允许 Kerberos 数据 库 的 管理 ， 该 工具 带 给 用 户 一 个 类 似 于 控制 台 
接口 ， 以 输入 各 种 命令 和 对 Kerberos 数据 库 进 行 操作 (示例 4-9 一 示例 4-12) 


示例 4-9 向 Kerberos 数据 库 添 加 一 个 新 主体 


kadmin: addprinc alice@EXAMPLE.COM 

WARNING: no policy specified for alice@EXAMPLE.COM; defaulting to no policy 
Enter password for principal "alice@EXAMPLE.COM": 

Re-enter password for principal "alice@EXAMPLE.COM": 

Principal "aliceQEXAMPLE.COM" created. 

kadmin: 



































示例 4-10 ”显示 Kerberos 数据 库 中 一 个 主体 的 详细 信息 


kadmin: getprinc alice@EXAMPLE.COM 

Principal: alice@EXAMPLE.COM 

Expiration date: [never] 

Last password change: Tue Feb 18 20:48:15 EST 2014 
Password expiration date: [none] 

Maximum ticket life: 1 day 00:00:00 

Maximum renewable life: 7 days 00:00:00 

Last modified: Tue Feb 18 20:48:15 EST 2014 (root/adminQEXAMPLE . COM) 
Last successful authentication: [never] 

Last failed authentication: [never] 

Failed password attempts: 0 

Number of keys: 2 

Key: vno 1, aes256-cts-hmac-sha1-96, no salt 

Key: vno 1, aes128-cts-hmac-sha1-96, no salt 

MKey: vnoi 

Attributes: 

Policy: [none] 

kadmin: 





示例 4-11 删除 Kerberos 数据 库 中 的 一 个 主体 


kadmin: delprinc alice@EXAMPLE.COM 

Are you sure you want to delete the principal "aliceQEXAMPLE.COM"? (yes/no): yes 
Principal "alice@EXAMPLE.COM" deleted. 

Make sure that you have removed this principal from all ACLs before reusing. 
kadmin: 


示例 4-12 列 出 Kerberos 数据 库 中 所 有 主体 


kadmin: listprincs 
HTTP/server1.example.com@EXAMPLE.COM 
K/M@EXAMPLE . COM 

bobQEXAMPLE . COM 
flume/server1.example.com@EXAMPLE.COM 
hdfs/server1.example.comQEXAMPLE . COM 
hdfsQEXAMPLE . COM 
hive/server1.example.comQEXAMPLE . COM 
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hue/server1.example.com@QEXAMPLE . COM 
impala/server1.example.com@EXAMPLE.COM 
kadmin/admin@EXAMPLE . COM 
kadmin/server1.example.comQEXAMPLE COM 
kadmin/changepwQEXAMPLE . COM 
krbtgt/EXAMPLE. COMQEXAMPLE . COM 
mapred/server1.example.comQEXAMPLE . COM 
oozie/server1.example.comQEXAMPLE. COM 
yarn/server1.example.comQEXAMPLE . COM 
zookeeper /server1.example.comQEXAMPLE . COM 
kadmin: 


4.5.2 客户 端 配置 


默认 的 Kerberos 客户 端 配置 文件 通常 被 命名 为 krb5.conf， 在 UNIX/Linux 系统 的 /etc/ 
目录 下 。 客 户 端 应 用 (包括 kinit TH) 需要 使 用 Kerberos 时 ， 随 时 读 取 该 配置 文件 。 
示例 4-13 展示 的 krb5.conf 配置 文件 是 根据 Red Hat/CentOS 6.4 中 自 带 配置 文件 执行 的 最 
小 配置 。 











示例 4-13  krb5.conf 


[logging] 

default = FILE:/var/Log/krb5Libs.Log 

kdc = FILE:/var/log/krb5kdc.log 
admin_server = FILE:/var/log/kadmind. log 


[libdefaults] 
default realm = DEV. EXAMPLE .COM 
dns_lookup_realm = false 
dns_lookup_kdc = false 
ticket_lifetime = 24h 
renew_lifetime = 7d 
forwardable = true 
default_tkt_enctypes 
default_tgs_enctypes 
udp_preference_limit 


aes256-cts aes128-cts 
aes256-cts aes128-cts 
1 


[realms] 
EXAMPLE.COM = { 
kdc = kdc.example.com 
admin server = kdc.example.com 


} 


DEV.EXAMPLE.COM = { 
kdc = kdc.dev.example.com 
admin server - kdc.dev.example.com 


j 


[domain realm] 
.example.com - EXAMPLE.COM 
example.com - EXAMPLE.COM 
.dev.example.com - DEV.EXAMPLE.COM 
dev.example.com = DEV.EXAMPLE.COM 





该 例 中 有 儿 个 不 同 的 节 。 第 一 个 是 logging， 其 含义 不 言 而 喻 。 它 定义 了 会 产生 日 志 的 各 
种 Kerberos 组 件 的 日 志文 件 存 放 位 置 。 第 二 节 是 Libdefaults， 包 括 通 用 的 默认 配置 信息 。 
本 市 更 深入 地 看 一 下 个 性 化 配置 。 
default_realm 
该 字段 定义 了 没有 提供 任何 域 的 情况 下 应 该 使 用 什么 Kerberos 域 ， 这 与 早先 kinit 例子 
中 没有 提供 域 的 情况 刚好 是 相符 的 。 
dns_lookup_realm 


可 以 用 DNS 指定 使 用 哪个 Kerberos 域 。 
dns_Lookup_kdc 
可 以 用 DNS 寻找 KDC 的 位 置 。 
ticket lifetime 
该 项 指定 了 票据 持续 的 时 间 ， 可 以 为 KDC 指定 的 最 大 值 之 内 的 任意 时 间 长 度 。 常 用 值 
是 24 小 时 ， 标 为 24h。 
renew lifetime 
该 项 指定 了 票据 的 可 更 新 时 间 。 票 据 可 以 在 不 进行 客户 端 认 证 的 情况 下 ， 由 KDC 进行 
更 新 。 这 必须 在 票据 过 期 之 前 进行 。 
forwardable 
该 项 指定 了 票据 是 否 可 以 转发 。 这 意味 着 ,如果 一 个 用 户 已 经 拥有 一 个 TGT， 但 登录 
到 其 他 远程 系统 ， 那 么 KDC 可 以 在 无 需 重新 认证 的 情况 下 向 其 重新 分 发 一 个 TGT。 
default_tkt_enctypes 
该 项 指定 了 向 AS 发 送 请 求 时 加 密会 话 密 钥 的 方式 。 从 左 到 右 优 先 级 依次 降低 。 
default_tgs_enctypes 
该 项 指定 了 向 TGS 发 送 请 求 时 加 密会 话 密 钥 的 方式 。 从 左 到 右 优 先 级 依次 降低 。 
udp preference limit 
该 项 指定 了 UDP 包 的 最 大 值 ， 超 过 该 值 后 将 切换 为 TCP。 要 想 强制 使 用 TCP， 应 将 该 
直 设 为 1。 
下 一 布 是 reatms， 列 出 了 客户 端 知道 的 所 有 Kerberos 5X, kde 和 admin server 配置 项 分 别 
告诉 客户 端 哪个 服务 器 运行 着 KDC 和 kadmin 进程 。 这 些 配置 可 以 在 主机 名 后 指定 端口 ， 
如 果 没 有 指定 ， 就 默认 使 用 88 (KDC) 和 749 (admin server) 端口 。 该 例 展示 了 两 个 域 。 
这 是 一 种 常用 配置 ， 此 时 ， 两 个 域 之 间 存 在 单 向 信任 ， 并 且 都 需要 被 客户 端 知晓 。 该 例 
中 ， 可 能 EXAMPLE.COM 域 包含 所 有 终端 用 户主 体 ，DEV.EXAMPLE.COM 包含 一 个 开发 集群 中 的 
所 有 Hadoop 服务 主体 。 使 用 这 种 方式 配置 Kerberos 时 ， 能 够 使 该 开发 集群 的 用 户 使 用 他 
们 在 EXAMPLE. COM 域 中 已 有 的 赁 证， 以 访 阿 DEV.EXAMPLE.COM Ek, 


最 后 一 节 是 domain_reatm， 定 义 了 Kerberos 域 与 DNS 名 称 的 对 应 关系 。 第 一 项 表示 
example.com 域名 下 的 所 有 主机 都 映射 到 EXAMPLE.COM 域 ， 第 二 项 表示 example.com 自身 映 
射 到 EXAMPLE.COM $k, dev.example.com 和 DEV.EXAMPLE.COM 的 情况 与 之 类 似 。 如 果 本 节 中 
没有 找到 匹配 项 ， 客 户 端 就 会 尝试 使 用 DNS 名 称 的 域名 部 分 (转换 为 大 写 ) 作为 域名 。 
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4.6 小结 


本 章 要 点 是 ，Kerberos 认证 是 一 种 多 级 的 客户 端 /服务 端 过 程 ， 用 以 提供 用 户 和 服务 的 强 
认证 。 我 们 介绍 了 MIT Kerberos 发 行 版 ， 它 是 Kerberos 的 一 种 主流 实现 。 即便 本 章 描述 
了 如 何 配置 MIT Kerberos 的 一 些 细 方 ， 我 们 仍然 强烈 推荐 你 参考 MIT Kerberos 官方 文档 
(http://web.mit.edu/~kerberos/)， 因 为 它 是 对 最 新 版 本 的 最 新 参考 文档 ， 也 为 安全 管理 员 配 
置 Kerberos 环境 提供 了 关于 所 有 配置 项 的 更 详细 的 指南 。 


第 5 章 将 把 目前 为 止 涉及 的 Kerberos 概念 放 入 Hadoop 以 及 Hadoop 生态 系统 环境 ， 进 行 
更 深 的 探索 
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验证 、 授 权 和 审计 


第 5 章 


身份 和 验证 





对 于 任何 系统 ， 保 护 数据 的 第 一 个 必要 步骤 就 是 为 每 位 用 户 提供 一 个 唯一 的 身份 ， 并 且 对 
用 户 声明 的 身份 进行 验证 。 验 证 和 身份 极其 重要 ， 因 为 如 果 身 份 验 证 体系 不 能 够 确信 用 户 
确实 符合 他 们 所 声明 的 身份 ， 则 无 法 对 数据 进行 访问 控制 。 

本 章 将 详细 研究 Hadoop 服务 如 何 管理 身份 验证 和 身份 。 首 先 研究 身份 的 概念 ， 以 及 
Hadoop 如 何 合并 来 自 Kerberos KDC, LDAP 和 Active Directory 域 的 信息 ， 并 提供 一 个 关 
于 分 布 式 身份 的 综合 视图 。 然 后 讲解 Hadoop 内 部 如 何 表征 用 户 ， 以 及 从 外 部 、 全 局 的 身 
份 到 内 部 用 户 角 色 的 映射 选项 。 接 下 来 ， 回 顾 Kerberos， 并 进一步 详细 研究 Hadoop 如 何 
通过 Kerberos 实现 强 认 证 。 之 后 ， 再 继续 研究 一 些 核心 组 件 如 何 使 用 基于 用 户 名 / 密码 组 
合 的 身份 验证 体系 ， 以 及 分 布 式 身 份 验 证 令 牌 在 整个 架构 中 是 怎样 的 角色 。 最 后 ， 讨 论 用 
户 模拟 ， 并 深入 了 解 Hadoop 身份 验证 机 制 的 配置 。 


5.1 身份 


Hadoop 生态 系统 环境 中 ， 身 份 是 一 个 相对 复杂 的 主题 。 这 是 由 于 ，Hadoop 在 尽 可 能 地 实 
现 与 权威 身份 源 的 松 耦 合 。 第 4 章 介 绍 了 Kerberos 身份 验证 协议 ， 接 下 来 将 对 其 进行 重点 
介绍 ， 因 为 Kerberos 协议 是 Hadoop 中 默认 使 用 的 安全 认证 协议 。 虽 然 Kerberos 为 可 靠 的 
身份 验证 提供 支持 ， 但 它 对 高 级 身份 特征 (如 用 户 组 或 角色 ) 几乎 没有 提供 任何 支持 。 特 
别 是 Kerberos 只 将 身份 表现 为 简单 的 、 分 为 两 部 分 的 字符 串 (对 于 服务 来 说 是 分 为 三 部 分 
的 字符 串 ) ， 这 两 部 分 分 别 为 得 名 称 和 域 。 当 赋予 每 位 用 户 一 个 唯一 的 身份 标识 时 ， 这 种 
身份 表现 法 虽然 有 用 ， 但 对 于 实现 可 靠 的 身份 验证 协议 来 说 仍然 不 够 。 

除了 用 户 身 份 之 外 ， 大 多 数 计算 系统 还 提供 了 组 。 组 通常 被 定义 为 一 批 用 户 的 集合 。 由 于 
Hadoop 的 目标 之 一 是 集成 已 有 的 企业 系统 ， 所 以 它 务 实地 使 用 可 插 拔 系统 提供 传统 的 群 
组 概念 。 
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5.1.1 将 Kerberos 主 体 映 射 为 用 户 名 


IRA T fik Hadoop 如 何 将 用 户 映射 到 群 组 之 前 ， 需 要 讨论 Hadoop 如 何 将 Kerberos 主体 名 
称 转换 为 用 户 名 。 回 忆 第 4 章 中 Kerberos 使 用 一 个 两 部 分 字符 串 (如 alice@EXAMPLE.COM) 
或 三 部 分 字符 串 (如 hdfs/namenode.example.comQEXAMPLE.COM), ， 这 类 字符 串 包 含 了 短 名 
称 、 域 ， 以 及 一 个 可 选 的 实例 名 或 主机 名 。 为 了 简化 用 户 名 的 使 用 ，Hadoop 将 Kerberos 
主体 名 映射 至 本 地 用 户 名 。Hadoop 能 够 使 用 krb5.conf 文件 中 的 auth to local 设置 ， 也 
能 够 使 用 core-site.xml 文件 中 的 hadoop.security.auth to local 参数 对 Hadoop 专 有 规 
则 进行 配置 。 


hadoop.security.auth_to_local 的 值 被 设 为 一 个 或 多 个 从 主体 名 到 本 地 用 户 名 的 映射 规 
则 。 规 则 可 以 是 以 DEFAULT 或 RULE: 开头 的 字符 串 ， 其 后 跟着 三 部 分 内 容 : 初始 主体 转换 ， 
接收 过 滤器 、 代 换 命 令 。 特 殊 值 DEFAULT 只 上 映射 Hadoop 本 地 域名 称 中 的 第 一 部 分 (如 
alice/admin@EXAMPLE.COM 被 DEFAULT 规则 映射 为 alice), 

1. 初始 主体 转换 

初始 主体 转换 由 一 个 数值 加 代 换 字符 串 组 成 。 该 数值 对 应 除 域 之 外 的 主体 成 员 数 量 。 代 换 
字符 串 则 定义 主体 如 何 被 初始 地 转换 。 变 量 $9 将 指 代 主体 的 域 ，$1 将 指 代 第 一 个 成 员 ， 
$2 将 指 代 第 二 个 成 员 。 关 于 初始 主体 转换 的 一 些 示 例 见 表 5-1。 初 始 主 体 转 换 的 格式 为 
[< 数值 >:< 字符 串 >]， 输 出 称 为 “初始 本 地 名 称 ”。 

表 5-1: 初始 主体 转换 示例 





















































主体 转换 alice @ EXAM PLE.com 的 hdfs/namenode.example.com@EXAMPLE.COM 的 初始 
初始 本 地 名 称 本 地 名 称 

[1:$1.$0] alice. EXAMPLE . COM 不 匹配 

[1: $1] alice 不 匹配 

[2:$1_$2@$0] 不 匹配 hdfs_namenode. example. com@EXAMPLE.COM 

[2:$1@$0] 不 匹配 hdfd@EXAMPLE.COM 





接收 过 滤器 是 个 正则 表达 式 。 如 果 初 始 的 本 地 名 称 (如 规则 的 第 一 部 分 ， 即 初始 主体 转换 
的 输出 ) 与 正则 表达 式 相 匹配 ， 那 么 代 换 命令 则 会 在 该 字符 串 上 执行 。 当 且 仅 当 整 个 字符 
串 与 正则 表达 式 匹 配 时 ， 才 会 认为 初始 本 地 名 称 符 合 正则 表达 式 。 这 相当 于 正则 表达 式 以 
^ 开 始 ， 以 $ 结束 。 关 于 接收 过 滤器 的 一 些 示 例 见 表 5-2。 接 收 过 滤器 的 格式 为 (< 正则 表 
达 式 >)。 


表 5-2: 接收 过 滤器 示例 




















接收 过 滤器 alice.EXAMPLE.COM hdfs 9 EXAMPLE.COM 
(.*\. EXAMPLE\ . COM) 匹配 不 匹配 

(.*@EXAMPLE\ .COM) 不 匹配 匹配 

(.*EXAMPLE\ . COM) 匹配 匹配 

(EXAMPLE . COM) 不 匹配 不 匹配 
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3. 代 换 命令 

民 换 命令 是 一 个 类 似 sed 的 批量 替换 命令 ， 该 命令 由 正则 表达 式 和 替换 字符 串 组 成 。 可 以 
将 一 部 分 正则 表达 式 用 括号 括 起 来 表示 匹配 组 ， 并 在 替换 字符 串 中 使 用 数字 (例如 \1) 对 
其 进行 引用 。 组 号 是 由 左 括号 在 正则 表达 式 中 的 顺序 决定 的 。 表 5-3 是 代 换 命令 的 一 些 示 
例 。 代 换 命令 的 格式 为 s/< 模式 >/ < 替换 字符 串 >/g。 其 中 ， 末 位 的 g 是 可 选 的 ， 车 g 存 
在 ， 则 表示 对 于 整个 字符 串 来 说 是 全 局 代 换 ， 若 g 不 存在 ， 则 表示 只 有 匹配 规则 的 第 一 个 
子 串 被 代 换 。 


表 5-3: 代 换 命令 示例 












































代 换 命令 alice.EXAMPLE.COM hdfs 9 EXAMPLE.COM 
s/(.*)\. EXAMPLE. COM/M / alice 不 可 用 
s/(.EXAMPLE.COM// alice hdfs 

s/E/Q/ alice.QXAMPLE.COM hdfsQQXAMPLE . COM 
s/E/Q/g alice.QXAMPLQ.COM hdfsQQXAMPLQ . COM 


一 条 规则 的 完整 格式 为 : RULE:[< 数字 >:< FAH >](< 正则 表达 式 >)s/< 模式 >/< FRF 
符 串 >/。 多 条 规则 会 分 行 隔 开 ， 且 会 按 顺 序 执行 。 一 旦 某 一 主体 完全 匹配 某 一 规则 (如 主 
体 符合 初始 主体 转换 的 数值 ， 且 初始 本 地 名 称 符合 接收 过 滤器 )， 该 规则 就 会 输出 该 主体 
的 用 户 名 ， 并 且 不 会 继续 执行 其 他 规则 。 由 于 这 样 的 顺序 限制 ， 我 们 通常 将 DEFAULT 规则 
列 在 最 后 。 


auth_to_local 设置 最 常见 的 使 用 方式 是 ， 用 于 配置 如 何 处 理 来 自 其 他 Kerberos 域 的 主 
体 。 一 个 常见 的 使 用 场景 是 ， 设 置 一 个 或 多 个 信任 域 。 例 如 ， 用 户 的 Hadoop 域 为 HADOOP. 
EXAMPLE.COM， 但 合作 域 为 CORP .EXAMPLE.CoM， 那 么 用 户 应 添加 能 将 合作 域 主体 转换 为 本 地 
用 户 的 规则 。 示 例 5-1 给 出 了 仅 接 受 来 自 HADOOP . EXAMPLE . COM 域 和 CORP.EXAMPLE.COM 域 的 
用 户 ， 并 且 将 这 两 个 域 的 用 户 映 射 为 两 个 域 首 部 的 配置 样 例 。 


示例 5-1 使 用 auth_to_local 配置 信任 域 


<property> 
<name>hadoop.security.auth_to_local</name> 
<value> 
RULE: [1:$1@$0](.*@CORP . EXAMPLE . COM) s /@CORP . EXAMPLE . COM/ / 
RULE: [2:$1@$0](. *@CORP. EXAMPLE . COM) s /@CORP . EXAMPLE . COM/ / 
DEFAULT 
</value> 
</property> 


5.1.2 ”Hadoop 用 户 到 组 的 映射 


Hadoop 使 用 一 个 名 为 hadoop. security.group.mapping 的 配置 参数 ， 以 控制 用 户 到 用 户 组 
的 映射 。 默 认 的 实现 方法 使 用 标准 UNIX 接口 进行 本 地 调用 ， 或 者 使 用 shell 命令 查找 用 户 
到 组 的 映射 。 这 意味 着 ， 只 有 配置 在 调用 映射 的 那 台 服 务 器 上 的 用 户 组 才 对 Hadoop 可 见 。 
在 实际 操作 中 ， 这 不 是 个 大 问题 ， 因 为 Hadoop 集群 对 访问 集群 的 用 户 和 用 户 组 会 有 一 臻 
的 视图 。 




































































除了 要 了 解 用 户 到 组 的 映射 机 制 如 何 工作 之 外 ， 了 解 这 些 映 射 的 发 生 位 置 
也 同样 重要 。 正 如 第 6 章 将 讲 到 的 ， 用 户 到 组 的 映射 要 始终 保持 一 致 ， 并 
且 要 在 进行 授权 决策 的 环节 发 生 。 对 于 Hadoop， 这 意味 着 映射 发 生 在 
NameNode, JobTracker (对 MR1) 以 及 ResourceManager (对 YARN/MR2) 
进程 中 。 这 是 个 很 重要 的 细节 ， 因 为 默认 的 用 户 到 组 的 映射 实现 是 通过 使 用 
标准 UNIX 接口 决定 组 成 员 的 ， 对 于 存在 于 Hadoop 视角 中 的 用 户 组 ， 也 必 
须 存在 于 运行 有 NameNode、JobTracker 和 ResourceManager 的 服务 器 上 。 
































hadoop.security.group.mapping 的 配置 参数 能 够 设置 于 任意 实现 了 org.apache.hadoop. 
security.GroupMappingServiceProvider 接 » HJ Java 类 中 。 除 了 之 前 介绍 过 的 默认 配置 ， 
Hadoop 还 提供 了 很 多 对 于 该 接口 的 实现 ， 总 结 如 下 。 
JniBasedUnixGroupsMapping 
一 个 基于 JNI (Java Native Interface, Java 本 地 接口 ) 的 实现 ， 调 用 libe 库 国 数 getpwnam 
r() 和 getgrouplist() 确定 组 成 员 。 
JniBasedUnixGroupsNetgroupMapping 
JniBasedUnixGroupsMapping 的 一 种 扩展 ， 通 过 调用 库 国 数 setnetgrent()、getnetgrent() 
和 endnetgrent() 确定 网 络 组 成 员 。 只 有 服务 分 层 授权 访问 控制 列表 中 使 用 到 的 网 络 组 才 
会 被 引入 这 个 映射 。 
ShellBasedUnixGroupsMapping 
一 种 基于 shell 的 实现 ， 使 用 id -Gn 命令 。 
ShellBasedUnixGroupsNetgroupMapping 
ShellBasedUnixGroupsMapping 的 一 种 扩展 ， 使 用 getent netgroup shell 命令 确定 网 络 
组 成 员 。 只 有 服务 分 层 授 权 访 问 控制 列表 中 使 用 到 的 网 络 组 才 会 被 引入 这 个 映射 。 
JniBasedUnixGroupsMappingWithFallback 
JniBasedUnixGroupsMapping 类 的 封装 ， 若 不 能 加 载 本 地 库 (这 是 默认 设置 下 的 实现 )， 
则 会 回 退 到 ShellBasedUnixGroupsMapping 类 。 

















JniBasedUnixGroupsNetgroupMappingWithFallback 


JniBasedUnixGroupsNetgroupMapping 类 的 封装 ， 若 不 能 加 载 本 地 库 ， 则 会 回 退 到 ShellB- 
asedUnixGroupsNetgroupMapping 类 。 





LdapGroupsMapping 
Hj LDAP X Active Directory 服务 器 直 连 ， 确 定 组 成 员 。 


无 论 组 映射 是 如 何 配置 的 ，Hadoop 都 会 将 映射 内 容 缓存 ， 并 且 仅 在 缓存 记 
录 过 期 后 才 调用 映射 的 实现 。 组 映射 缓存 默认 为 每 隔 300 秒 (5 分 钟 ) 过 期 。 
若 用 户 想 使 底层 组 的 更 新 更 频繁 地 在 Hadoop 中 体现 ， 则 要 将 core-site.xml 
中 的 hadoop.security.groups.cache.secs 设置 为 希望 记录 被 缓存 的 秒 数 。 这 
个 数值 应 设 得 尽量 小 ， 以 迅速 反映 更 新 的 变化 。 然 而 又 不 能 太 小 ， 否 则 将 导 
致 对 LDAP 服务 器 或 其 他 用 户 组 提供 者 的 不 必要 的 访问 。 
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使 用 LDAP 将 用 户 映射 至 组 
大 多 数 应 用 部 署 可 以 使 用 默认 的 组 映射 来 源 。 然 而 ， 对 于 仅 能 直接 从 LDAP 或 Active Directory 
服务 器 一 一 而 不 是 从 集群 节点 一 一 引用 群 组 的 环境 ，Hadoop 提供 了 LdapGroupsMapping 实现 。 
该 方法 的 配置 通过 设置 位 于 NameNode, JobTracker 和 / 或 ResourceManager 上 的 core-site. 
XML 文件 中 的 数 个 参数 实现 。 
hadoop.security.group.mapping.ldap.url 
用 于 解析 用 户 群 组 的 LDAP 服务 器 URL。 必 须 以 dap: // 或 者 Vdaps:// ( 若 SSL 功能 
FE) 开关 
hadoop.security.group.mapping.ldap.bind.user 
连接 LDAP 服务 器 时 给 用 户 绑 定 的 唯一 名 称 。 该 用 户 需要 对 目录 进行 读 访 问 ， 并 且 不 


HL vc 
能 是 管理 员 。 














hadoop.security.group.mapping. Ldap.bind. password 
已 绑 定 用 户 的 密码 。 最 好 不 要 使 用 该 参数 设置 密码 ， 而 将 密码 放 进 一 个 独立 的 文件 ， 并 且 
将 hadoop.security.group.mapping.ldap.bind.password.file 指向 该 独立 文件 的 路 径 。 











如 果 将 Hadoop 配置 为 直接 使 用 LDAP， 则 会 缺失 Hadoop 服务 账户 (如 
hdfs) 的 本 地 组 。 这 样 会 导致 log 日 志 中 产生 大 量 如 下 消息 : 


No groups available for user hdfs 


Al ok, (EM JNI ak JE T shell BJ m St, 并 在 操作 系统 层 将 LDAP/Active 
Directory 集成 的 做 法 通常 更 好 。 系 统 安 全 服务 守护 进程 (SSDD) 融合 了 许 
多 身份 和 验证 系统 ， 并 且 能 为 缓存 和 离线 访问 提供 通用 支持 。 






































使 用 上 述 参数 ， 示 例 5-2 展示 了 如 何在 coresite.xml 中 实现 Ldap Groups Mapping, 


示例 5-2 — core-site.xml 中 的 LDAP 映射 示例 


<property> 
<name>hadoop.security.group.mapping</name> 
<value>org.apache.hadoop.security.LdapGroupsMapping</vaLlue> 

</property> 

<property> 
<name>hadoop.security.group.mapping. ldap.url</name> 
<value>ldap: //ad.example.com</value> 

</property> 

<property> 
<name>hadoop.security.group.mapping. ldap.bind.user</name> 
<vaLue>Hadoop@ad.example.com</value> 

</property> 

<property> 
<name>hadoop.security.group.mapping. ldap. bind. password</name> 
«value»password«/value» 

</property> 





除了 必需 的 参数 外 ， 还 有 几 个 可 选 参数 能 够 控制 用 户 和 组 之 间 是 如 何 映射 的 。 
hadoop.security.group.mapping.ldap.bind.password.file 
本 参数 为 含有 绑 定 用 户 密码 的 文件 路 径 。 该 文件 应 该 只 能 被 运行 服务 (通常 是 hdfs、 
mapred 和 yarn) 的 UNIX 用 户 读 取 。 





hadoop.security.group.mapping.ldap.ssl 
本 参数 值 为 true 时 ， 开 启 连接 LDAP 服务 器 的 SSL 协议 。 若 该 设 定 为 生效 状态 ， 则 
hadoop.security.group.mapping.ldap.url 参数 必须 以 ldaps:// 起 始 。 





hadoop.security.group.mapping.ldap.ssl.keystore 
本 参数 为 Java 密 钥 库 的 路 径 ， 包 含 开 启 SSL 时 LDAP 服务 器 要 求 的 客户 证 书 。 该 密 钥 
库 必 须 为 IKS (Java 密 钥 库 ) 格式 。 
hadoop.security.group.mapping.ldap.ssl.keystore.password 
本 参数 为 hadoop.security.group.mapping.ldap.ssl.keystore 文件 的 密码 。 最 好 不 要 使 
用 该 设置 ， 而 将 密码 放 在 另 一 个 独立 的 文件 中 ， 并 将 hadoop.security.group.mapping. 
ldap.ssl.keystore. password. file 属性 配置 为 指向 该 独立 文件 的 路 径 。 
hadoop.security.group.mapping.ldap.ssl.keystore.password.file 
本 参数 为 包含 hadoop.security.group.mapping.ldap.ssl.keystore 文件 密码 的 文件 路 
径 。 该 文件 应 该 只 能 被 运行 服务 (通常 是 hdfs、mapred 和 yarn) 的 UNIX 用 户 读 取 。 




















hadoop.security.group.mapping.Ldap.base 
该 参数 为 用 于 搜索 LDAP 目录 的 搜索 库 。 搜 索 库 的 名 称 唯一 ， 且 通常 会 在 能 够 覆盖 访 
问 集群 的 所 有 用 户 的 前 提 下 被 配置 得 尽 可 能 具体 。 
hadoop.security.group.mapping.ldap.search.filter.user 
用 于 搜索 LDAP IH PUES, MAM Aæ (&(objectClass-user) (saMAccountName-(0]) ) , 
通常 适用 于 安装 了 Active Directory 的 情况 。 对 于 其 他 LDAP 服务 器 ， 需 要 修改 该 配置 。 
对 于 OpenLDAP 和 相应 的 兼容 服务 器 ， 推 荐 的 配置 为 (&(objectClass=inetOrgPerson) 
(uid={0}))。 


hadoop.security.group.mapping.ldap.search.filter.group 
用 于 搜索 LDAP 用 户 组 的 过 着 器。 默认 配置 为 (objectCLass=group)， 通 常 适用 于 安装 
了 Active Directory 的 情况 。 











hadoop.security.group.mapping.ldap.search.attr.member 
组 对 象 用 于 标识 组 内 用 户 身 份 的 属性 。 
hadoop.security.group.mapping.ldap.search.attr.group.name 
组 对 象 用 于 标识 组 名 的 属性 。 
hadoop.security.group.mapping. Ldap.directory.search. timeout 


等 待 搜索 目录 结果 的 超时 时 间 ， 以 毫秒 为 单位 。 





























身份 和 验证 | 53 


5.1.3 ”Hadoop 用 户 配 置 
理解 的 Hadoop 安全 需求 之 一 就 是 ， 集 群 的 所 有 用 户 都 必须 能 在 














最 难 











E 集 群 中 的 所 有 服务 器 


上 进行 配置 。 这 意味 着 他 们 既 可 以 存在 于 本 地 的 /etc/passwd 文件 中 ， 也 可 以 通过 服务 器 
接 入 的 网 络 目录 服务 进行 配置 (这 种 情况 更 普遍 )， 例 如 OpenLDAP 或 者 Active Directory. 





为 了 理解 该 需求 ， 需 要 牢记 ，Hadoop 实际 上 是 一 个 允许 用 户 在 集群 机 器 上 提交 和 执行 任 




















意 代码 的 服务 。 这 意味 着 ， 如 果 不 信任 用 户 ， 则 需要 限制 这 些 用 户 对 任何 或 所 有 运行 在 集 
群 服务 器 上 的 服务 进行 访问 ， 包 括 本 地 文件 系统 等 标准 Linux 服务 。 目 前 ， 加 强 这 些 限制 
的 最 好 方法 是 ， 在 集群 上 使 用 提交 任务 的 用 户 的 用 户 名 和 UID 执行 各 项 任务 。 为 了 满足 此 


需求 ， 必 须 让 集群 中 的 每 一 台 服 务 器 都 使 用 一 致 的 用 户 数据 库 。 











虽然 所 有 集群 用 户 都 必须 在 集群 上 的 所 有 服务 器 上 进行 配置 ， 但 不 一 定 要 给 


所 有 月 





sbin/nologin 对 用 户 进 
AllowUsers, DenyUsers, AllowGroups 和 DenyGroups 配置 楚 目 月 


访问 。 














5.2 身份 验证 


Hadoop 的 早期 版 本 以 及 相关 生态 系统 的 项 目 是 不 支持 强 认 证 的 。Hadoop 是 个 复杂 的 分 布 


式 系统 ， 幸 运 的 是 ， 它 的 生态 系统 中 ， 绝 大 多 数组 们 








昌 户 都 开启 本 地 或 远程 shell 访问 。 最 好 的 策略 是 ， 通 过 预 设 的 shell/ 
行 配 置 ， 并 且 通 过 /etc/ssh/sshd_config 文件 中 的 





日 户 的 SSH 


F 都 根据 有 限 的 几 个 认证 方式 进行 了 


标准 化 ， 这 些 标准 化 取决 于 具体 的 服务 和 协议 。 特 别 地 ，Kerberos 被 用 于 生态 系统 中 的 
绝 大 部 分 组 件 内 ， 因 为 Hadoop 在 早期 的 安全 属性 开发 时 就 已 经 根据 它 进 行 了 标准 化 。 表 
5-4 是 根据 服务 和 协议 总 结 的 身份 验证 方法 。 本 节 重 点 关注 HDFS, MapReduce, YARN, 
HBase, Accumulo 和 ZooKeeper 的 身份 验证 。Hive、Impala、Hue、Oozie 和 Solr 的 身份 验 
为 这 些 通常 是 由 用 户 直接 访问 的 。 
表 5-4: Hadoop 生 态 系统 的 身份 验证 方法 


证 将 延 后 至 第 1 章 和 第 12 章 进 行 介绍 ， 


因 






































服务 协议 方法 

HDFS RPC Kerberos， 委 托 令 牌 

HDFS Web UI SPNEGO (Kerberos), ， 可 插 拔 式 
HDFS REST(WebHDFS) SPNEGO (Kerberos) ， 委 托 令 牌 
HDFS REST(HttpFS) SPNEGO (Kerberos), EHA IR 
MapReduce RPC Kerberos， 委 托 令 牌 

MapReduce Web UI SPNEGO (Kerberos), ， 可 插 拔 式 
YARN RPC Kerberos， 委 托 令 牌 

YARN Web UI SPNEGO (Kerberos), ， 可 插 拔 式 
Hive Server 2 Thrift Kerberos, LDAP (用 户 名 /密码 ) 
Hive Metastore Thrift Kerberos,LDAP (用 户 名 /密码 ) 
Impala Thrift Kerberos, LDAP (用 户 名 / 密码) 














邮 





















































服务 协议 方法 

HBase RPC Kerberos， 委 托 令 牌 

HBase Thrift Proxy 无 

HBase REST Proxy SPNEGO (Kerberos ) 

Accumulo RPC He 4 / 密码 ， 可 插 拔 式 

Accumulo Thrift Proxy 日 户 名 / 密码 ， 可 插 拔 式 

Solr HTTP 基于 HTTP 容器 

Oozie REST SPNEGO (Kerberos, 委托 令 牌 ) 

j 户 名 /密码 (数据 库 、 PAM, LDAP), SAML, OAuth, 
SPNEGO (Kerberos)、 远 程 用 户 (HTTP 代理 ) 

ee pe dea (用 户 名 /密码 )、IP、SASL (Kerberos), "Tff 





5.2.1 Kerberos 


Hadoop 支持 两 种 身份 验证 机 制 ， 简 单机 制 和 Kerberos 机 制 。 简 单机 制 是 默认 设置 ， 根据 
客户 进程 的 有 效 UID 确定 用 户 名 ， 该 用 户 名 会 不 附带 任何 额外 赁 证， 直接 传 给 Hadoop。 
这 种 模式 下 ，Hadoop 服务 完全 信任 他 们 的 客户 。 这 种 默认 设置 允许 任何 可 访问 集群 的 用 户 
均 能 被 完全 信任 ， 直 接 访 癌 上述 集 群 的 所 有 数据 和 管理 员 级 功能 。 对 于 概念 验证 性 系统 或 
实验 环境 ， 通 常会 允许 系统 以 这 种 模式 运行 ， 并 使 用 防火 墙 对 其 进行 保护 ， 同 时 会 限制 那 
些 能 够 使 用 客户 端 访问 集群 内 任何 系统 的 用 户 集 。 然 而 对 于 产品 级 或 者 多 租户 的 系统 ， 这 
样 的 身份 验证 机 制 几乎 不 能 被 接受 。 简 单 认证 同样 被 HBase 作为 其 默认 的 身份 验证 机 制 。 
HDFS, MapReduce, YARN, HBase, Oozie 和 ZooKeeper 都 支持 Kerberos 作为 客户 端的 
身份 验证 机 制 ， 虽 然 在 实现 方面 会 由 于 服务 和 接口 的 区 别 而 有 些 不 同 。 对 基于 RPC 的 协 
议 ， 简 单 认证 与 安全 层 (Simple Authentication and Security Layer, SASL) 框架 被 用 于 
向 下 层 协 议 添加 认证 。 理 论 上 ， 任 意 SASL 协议 都 能 得 到 支持 ， 但 实际 上 ， 真 正 仅 支 持 
的 机 制 是 GSSAPI (Kerberos V5) 和 DIGEST-MD5 (DIGEST-MDS 的 详细 内 容 参见 5.2.3 
节 )。Oozie 没有 RPC 协议 ， 取 而 代 之 的 是 ， 它 为 用 户 提供 了 REST 接口 。Oozie (EJH f 
单 和 受 保 护 的 GSSAPI 协商 机 制 (Simple and Protected GSSAPI Negotiation Mechanism, 
SPNEGO) ， 该 协议 最 初 由 微软 在 Internet Explorer 5.0.1 #11 IIS 5.0 中 为 HTTP 层 的 Kerberos 
认证 实现 。HDFS、MapReduce、YARN、Oozie 和 Hue 的 Web 接口 ， 以 及 HDFS (包括 
WebHDFS 和 HttpFS) 和 HBase 的 REST 接口 也 同样 支持 SPNEGO。SASL 和 SPNEGO 的 
身份 验证 过 程 遵 循 标准 的 Kerberos 协议 ， 只 有 提交 服务 票据 的 机 制 发 生 改 变 。 
让 我 们 来 看 Alice 是 如 何 通 过 Kerberos 与 HDFS 的 NameNode 进行 验证 交互 的 : 
。 Alice 为 由 hdfs/namenode.example.com@EXAMPLE.COM 标识 的 HDFS 服务 ， 从 kdc.example.com 
的 TGS 请 求 一 个 服务 票据 ， 并 随 请 求 附 上 她 的 TGT, 
e TGS 验证 TGT 之 后 ， 提 供给 Alice 一 个 服务 票据 ， 使 用 hdfs/namenode.example.com@ 
EXAMPLE . COM 的 主体 密 钥 。 
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。 Alice 把 服务 灭 据 提交 给 NameNode (通过 SASL), NameNode 能 够 使 用 hdfs/namenode. 
example. com@EXAMPLE . COM 的 密 钥 对 票据 进行 解密 和 认证 。 


5.2.2 用户 名 和 密码 验证 


ZooKeeper 支持 基于 用 户 名 和 密码 的 认证 。 相 比 于 使 用 一 个 用 户 名 和 密码 的 数据 库 ， 
ZooKeeper 将 验证 密码 的 环节 推迟 到 授权 步骤 (TER, 6.4 节 ZooKeeper ACLs)。 一 个 ACL 
(Access Control List， 访 问 控制 列表 ) 被 附加 到 一 个 ZNode 上 时 ， 会 引入 验证 方案 和 方案 
ID。 这 个 DD 是 该 方案 的 认证 提供 者 验证 过 的 。 用 户 名 和 密码 的 认证 通过 摘要 式 身份 验证 
提供 者 实现 ， 它 会 生成 用 户 名 和 密码 的 一 个 SHA-1 摘要 值 。 由 于 认证 环节 被 推迟 到 授权 步 
了 又， 因此 认证 步骤 总 能 通过 。 用 户 通过 调用 addAuthInfo(String scheme, byte[] authData) 
方法 添加 他 们 的 验证 细节 ， 其 中 <username>:<password>.getBytes() 作为 鉴别 数据 时 ， 
«username» 和 «password» 会 被 相应 的 值 替换 。 


Accumulo 也 支持 基于 用 户 名 和 密码 的 验证 。 与 ZooKeeper 不 同 ，Accumulo 使 用 更 常见 的 
方法 存储 用 户 名 和 密码 ， 并 且 有 一 个 清晰 明确 的 登录 步骤 验证 密码 有 效 性 。Accumulo 的 
验证 体系 对 AuthenticationToken 接口 进行 不 同 的 实现 ， 以 保证 其 可 插 拔 性 。 最 常见 的 一 
种 实现 是 PasswordToken 类 ， 该 类 可 以 从 CharSequence zx Java 属性 文件 初始 化 。 使 用 用 户 
名 和 密码 连接 Accumulo 的 样 例 代码 如 示例 5-3 所 示 。 


示例 5-3 使 用 用 户 名 和 密码 连接 Accumulo 


/[ 4| 3 — Accumulo: ff] $4 4] 45 
Instance instance = new ZooKeeperInstance("instance", 
"zk1.example.com,zk2.example.com,zk3.example.com"); 









































// 创建 一 个 包含 密码 的 令 牌 
AuthenticationToken token = new PasswordToken("secret"); 


// 创 建 连 接 器 ;如 果 密 码 无 效 , 则 会 抛 出 AccumuLoSecurityException 异 常 
Connector connector = instance.getConnector("alice", token); 


5.23 She 


任何 分 布 式 系 统 内 ， 以 用 户 名 义 执 行 的 所 有 行为 都 有 必要 验证 该 用 户 身份 。 仅 仅 验证 服务 
的 归属 者 是 不 够 的 ， 验 证 必须 发 生 在 每 一 次 交互 中 。 以 运行 一 个 MapReduce 作业 为 例 ， 想 
要 扩展 命令 行 参数 中 的 任意 通配符 ,需要 在 客户 端 和 NameNode 之 间 进 行 身份 验证 ， 为 了 
提交 作业 ， 则 需要 在 客户 端 和 JobTracker 之 间 均 进行 身份 验证 。 


JobTracker 将 工作 分 解 为 被 每 个 集群 中 的 TaskTracker 顺序 执行 的 任务 ， 每 个 任务 必须 与 
NameNode 通信 ， 以 打开 组 成 输入 分 片 (input split) 的 文件 。 为 了 加 强 文件 系统 的 许可 控 
制 ， 每 个 任务 必须 通过 NameNode 的 身份 验证 。 若 Kerberos 是 唯一 的 身份 验证 机 制 ， 用 
户 的 TGT 需要 分 派 给 每 一 个 任务 。 该 方法 的 缺点 在 于 ， 这 样 做 会 允许 任务 向 任意 一 个 受 
Kerberos 保护 的 服务 发 起 身份 验证 请 求 ， 而 这 种 做 法 是 不 合适 的 。 通 过 签发 能 分 派 给 每 个 
任务 、 但 被 限制 在 某 个 特定 服务 内 的 认证 令 牌 ，Hadoop 解决 了 该 问题 。 





























1. 委托 令 牌 

Hadoop 有 多 种 令 牌 ， 用 于 在 没有 TGT 或 Kerberos 服务 票据 的 情况 下 进行 认证 后 的 访问 。 
通过 Kerberos 与 NameNode 完成 身份 验证 后 ， 一 个 客户 端 能 够 获得 一 个 委托 令 牌 。 委 托 令 
牌 其 实 是 客户 端 和 NameNode 之 间 共 享 的 密 钥 ， 能 够 通过 DIGEST-MDS 机 制 用 于 RPC 身 
份 验证 。 

图 5-1 展示 了 客户 端 和 NameNode 之 间 的 两 次 交互 。 首 先 ， 客 户 端 使 用 Kerberos 服务 票据 
进行 了 getDelegationToken() 的 RPC 调用 ， 以 请 求 一 个 委托 令 牌 (1)。NameNode 回复 了 
一 个 委托 令 牌 (2)。 客 户 端 发 起 getListing() 的 RPC 调用 ， 以 请 求 目 录 列 表 ， 但 这 次 客户 
端 使 用 的 是 供 身份 验证 用 的 委托 令 牌 。 验 证 令 牌 后 ，NameNode 会 给 客户 端 响应 ， 内 容 为 
DirectoryListing(4), 

























NameNode 


(3) getListing() 
- auth: del(alice) 
(4)DirectoryListing 


NameNode 


(1) getDelegationToken() 
- auth: krb(alice) 
(2) del(alice) 


5-1: 获取 并 使 用 委托 令 牌 


令 牌 既 有 失效 日 期 也 有 最 大 发 行 日 期 。 令 牌 在 失效 日 期 之 后 会 失效 ， 但 直至 其 最 大 发 行 
日 期 前 ， 仍 然 能 够 被 更 新 。 客 户 端 能 够 在 完成 向 NameNode 的 初始 Kerberos 认证 之 后 ， 发 
起 对 委托 令 牌 的 请 求 。 令 牌 会 有 一 个 指定 的 更 新 机 制 。 为 用 户 更 新 令 牌 时 ， 令 牌 更 新 器 使 
用 其 Kerberos 凭证 进行 认证 。 委 托 令 牌 最 常见 的 用 法 是 在 MapReduce 任务 中 ， 客 户 端 指 
4E JobTracker 为 令 牌 更 新 器 。 委 托 令 牌 由 NameNode HJ URL 生成 ， 且 存储 在 JobTracker 
的 系统 目录 下 ， 以 便 将 其 传 给 任务 。 该 方法 使 得 任务 访问 HDFS 时 ， 不 会 将 用 户 的 TGT 
置 于 泄露 风险 中 。 

2. 块 访问 令 牌 

文件 权限 检查 由 NameNode 执行 ， 而 非 DataNode。 默 认 情 况 下 ， 任 何 客户 端 只 要 提供 块 
ID 就 可 以 访问 任意 块 。 为 了 解决 这 个 问题 ，Hadoop 引入 了 块 访问 令 牌 的 概念 。 块 访问 令 
牌 由 NameNode 生成 ， 在 客户 端 通过 身份 验证 ， 且 NameNode 已 执行 完 访 问 文件 / 块 的 
必要 授权 检查 后 ， 会 将 其 发 送 给 客户 端 。 块 访问 令 牌 包括 客户 端 也 、 块 ID 和 允许 访问 模 
XX (READ、WRITE、COPY、REPLACE)， 并 且 使 用 NameNode 和 DataNode 之 间 的 共享 
密 钥 进行 签名 。 该 共享 密 钥 永远 不 会 让 客户 端 获得 ， 且 块 访问 令 牌 过 期 时 ， 客 户 端 必 须 向 
NameNode 重新 请 求 一 个 令 牌 。 

图 5-2 展示 了 客户 端 如 何 使 用 块 访问 令 牌 读 取 文件 。 首 先 ， 客 户 端 使 用 Kerberos 凭证 ， 通 
过 getBlockLocations() 的 RPC 调用 ， 向 NameNode 请 求 所 需 的 块 位 置 (1)。NameNode 会 
响应 一 个 LocatedBlock 对 象 ， 该 对 象 包括 针对 被 请 求 块 的 块 访问 令 牌 (2)。 客 户 端 使 用 块 
访问 令 牌 ， 通 过 数据 传输 协议 中 的 readBlock() 方法 ， 向 DataNode 进行 身份 验证 并 请 求 数 






























































身份 和 验证 | 57 


据 (3)。 最 后 ，DataNode 将 响应 请 求 的 数据 (4)。 


(1) getBlockLocations() 
- auth: krb(alice) - auth: bat(blk-42 
(2) LocatedBlock( 


bat(blk-42) 
} 












NameNode 











5-2: 使 用 块 访问 令 牌 访问 块 


3. 作业 令 牌 

提交 一 个 MapReduce 作业 时 ，JobTracker 会 创建 一 个 名 为 “作业 令 牌 ”的 密 钥 ， 该 令 牌 
被 作业 中 的 任务 用 于 向 TaskTracker 发 起 身份 验证 。JobTracker 将 作业 令 牌 放置 在 HDFS 
中 JobTracker 的 系统 目录 下 ， 并 通过 RPC 分 发 给 各 个 TaskTracker, TaskTracker 会 将 该 令 
牌 存放 在 本 地 磁盘 的 作业 目录 下 ， 该 目录 仅 能 被 作业 用 户 访问 。 作 业 令 牌 用 于 给 任务 和 
TaskTracker 之 间 的 RPC 通信 进行 身份 验证 ， 也 用 于 生成 一 种 散 列 值 ， 该 散 列 值 确 保 通 过 
HTTP 传输 的 中 间 输 出 在 shuffle 阶段 仅 能 被 该 作业 的 任务 访问 。 此 外 ， 返 回 shuffle 数据 的 
TaskTracker 会 计算 一 个 散 列 值 ， 供 每 个 任务 验证 它 是 在 同 真实 的 TaskTracker 一 一 而 不 是 
伪装 者 一 一 进行 对 话 。 

5-3 的 时 序 图 展示 了 作业 建立 阶段 使 用 的 身份 验证 方法 。 首 先 ， 客 户 端 通过 Kerberos 认 
证 请 求 建立 一 个 新 作业 (1)。JobTracker 给 客户 端 响应 作业 ID ， 用 于 该 作业 的 唯一 标识 (2)。 
客户 端 随 之 向 NameNode 请 求 委 托 令 牌 ， 并 使 用 JobTracker 作为 更 新 器 (3)。NameNode 给 
客户 端 响应 委托 令 牌 (4)。 只 有 客户 端 通过 Kerberos 身份 验证 后 ， 才 会 被 分 发 委托 令 牌 。 
最 后 ， 通 过 Kerberos 与 JobTracker 进行 身份 验证 的 客户 端 将 委托 令 牌 与 其 他 所 需 的 作业 细 


节 发 送 给 JobTracker。 
客户 端 JobTracker 
1 






























































T ”发 送 委托 令 牌 : i 
(5) kerb(alice 











5-3: 建立 作业 
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开始 执行 作业 时 ， 人 情况 会 更 加 有 意思 ， 如 图 5-4 所 示 。 
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5-4: 执行 作业 


JobTracker 会 生成 一 个 作业 令 牌 ， 并 将 作业 令 牌 、 委 托 令 牌 和 其 他 所 需 信 息 打 包 发 
送 给 TaskTracker(1), JobTracker 与 TaskTracker 对 话 时 ， 需 经 过 Kerberos 身份 验证 。 
TaskTracker 会 把 接收 到 的 令 牌 存储 至 一 个 仅 能 被 提交 作业 的 用 户 访问 的 目录 ， 然 后 运行 任 
务 (2)。 任 务 通 过 委托 令 牌 打开 文件 ， 并 请 求 块 地 址 以 获得 输入 分 片 (3)。NameNode 会 将 
块 地 址 和 相应 的 块 访问 令 牌 响应 给 发 起 请 求 的 任务 (4)。 该 任务 随 之 使 用 获得 的 块 访问 令 
牌 ， 从 DataNode 请 求 读 取 数 据 (5), DataNode 随 之 给 予 响应 (6)。 作 业 执 行 过 程 中 ， 任 务 
会 通过 作业 令 牌 进行 身份 验证 ， 向 TaskTracker 报告 任务 状态 (7)。 然 后 TaskTracker 会 通 
过 Kerberos 身份 验证 ， 并 向 JobTracker 报告 状态 ， 从 而 收集 整体 作业 状态 (8)。 


5.2.4 用 户 模拟 

Hadoop 生态 系统 中 ， 有 许多 服务 能 代表 终端 用 户 执行 事务 。 为 了 保证 安全 ， 这 些 服务 
必须 对 自己 的 客户 端 进行 身份 验证 ， 并 且 能 够 被 信任 ， 以 模拟 其 他 用 户 。Oozie、Hive 
(HiveServer2 中 ) 和 Hue 均 支 持 , 访问 HDFS, MapReduce, YARN 和 HBase 时 模拟 终端 
用 户 。 安 全 模拟 工作 贯穿 于 这 些 服务 ， 它 们 指定 哪些 用 户 可 以 执行 模拟 ， 以 这 种 方式 支持 
安全 模拟 。 一 个 受信 任 的 用 户 需要 代表 另 一 个 用 户 执行 操作 时 ， 她 必须 验证 自己 的 身份 ， 
并 提供 其 代替 用 户 的 用 户 名 。 受 信任 用 户 可 以 被 限制 为 仅 能 模拟 特定 用 户 组 ， 且 为 了 进 一 
步 约束 这 些 用 户 的 特权 ， 还 可 以 限制 他 们 仅 能 从 某 些 主机 访问 Hadoop, 

模拟 有 时 也 称 代理 机 制 。 能 够 执行 模拟 行为 的 用 户 (如 能 代表 其 他 用 户 的 ) 称 为 代理 。 
启用 模拟 的 配置 参数 为 hadoop.proxyuser.<proxy>.hosts 和 hadoop.proxyuser.<proxy>. 
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groups， 其 中 «proxy» 是 执行 模拟 行为 用 户 的 用 户 名 。 参 数值 为 按 喜 号 分 隔 、 且 顺序 排 
列 的 主机 和 组 列表 ， 若 为 * 则 意味 着 所 有 主机 /组 。 若 用 户 同 时 需要 Hue 和 Oozie 的 代 
时 功能 ， 但 又 需要 限制 Oozie 能 够 代理 的 oozie-user 组 的 成 员 ， 则 需要 使 用 示例 5-4 中 
的 配置 。 


示例 5-4 ”代理 的 示例 配置 


<!-- Configure Hue impersonation from hue.example.com --> 
<property> 
<name>hadoop.proxyuser .hue.hosts</name> 
<value>hue.example.com</value> 
</property> 
<property> 
«name-hadoop.proxyuser.hue.groups«/name» 
<value>*</value> 
</property> 























<!-- 
Configure Oozie impersonation from oozie01.example.com and 
oozie02.example.com for users in oozie-users 
--> 
<property> 
<name>hadoop. proxyuser .oozie.hosts</name> 
«value»oozie01.example.com,oozie02.example.com«/value» 
</property> 
<property> 
<name>hadoop. proxyuser .oozie.groups</name> 
<value>oozie-users</value> 
</property> 


5.2.5 配置 


对 于 产品 部 署 ，Hadoop 支持 使 用 Kerberos 机 制 进行 身份 验证 。 按 照 Kerberos 的 身份 验证 
机 制 配置 时 ， 所 有 用 户 和 守护 进程 必须 提供 有 效 的 凭证 以 访问 PRC 接口 。 这 意味 着 ， 必 须 
替 集 群 中 的 每 一 个 服务 / 守护 进程 对 都 创建 一 个 Kerberos 服务 主体 。 回 顾 第 4 章 讲 过 的 服 
务 主体 名 称 (SPN) 的 概念 ， 它 由 三 部 分 组 成 : 服务 名 称 、 主 机 名 称 、 域 。Hadoop 中 ， 每 
个 隶属 于 某 服务 的 守护 进程 都 会 使 用 该 服务 的 名 称 (HDFS 服务 用 hdfs, MapReduce 服务 
用 mapred, YARN 服务 用 yarn)。 另 外 ， 若 要 为 多 个 Web 接口 局 用 Kerberos 身份 验证 机 
制 ， 还 需要 向 主体 提供 HTTP 服务 的 名 称 。 


下 面 了 解 如 何 配置 一 个 使 用 Kerberos 身份 验证 机 制 的 集群 。 假 设 有 一 个 集群 ， 包 含 表 5-5 
所 示 的 主机 和 服务 。 


表 5-5 展示 的 服务 层 仅 用 作 示 例 ， 并 不 是 配置 集群 的 最 好 选择 。 对 于 初学 者 ， 
我 们 使 用 YARN 和 MRI 服务 的 配置 展示 示例 。 这 仅 意味 着 ， 给 出 全 方位 的 
配置 示例 需要 用 到 这 两 个 服务 (并 不 是 说 用 户 必须 使 用 这 两 个 服务 ) 。 实 际 
部 署 中 ， 可 能 只 部 署 一 个 或 另 一 个 。 与 之 类 似 ， 如 果 像 在 本 例 中 使 用 HA 运 
行 两 个 NameNode， 也 不 需要 再 另外 部 署 一 个 SecondaryNameNode, XE FH — 
下 ， 这 仅仅 是 为 了 让 我 们 的 示例 更 全 面 而 详尽 。 
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表 5-5: 服务 层 
主机 名 


守护 进程 





nnl.example.com 


nn2.example.com 


snn.example.com 


rm.example.com 


jt.example.com 


dnl.example.com 


dn2.example.com 


dn3.example.com 


第 一 步 ， 要 在 Kerberos KDC 中 创建 所 需 的 SPN， 并 为 每 台 服 务 














使 用 一 致 的 名 称 。 
表 5-6: 所 需 Kerberos 规 则 


NameNode 
JournalNode 
NameNode 
JournalNode 
SecondaryNameNode 
JournalNode 
ResourceManager 
JobTracker 
JobHistoryServer 
DataNode 
TaskTracker 
NodeManager 
DataNode 
TaskTracker 
NodeManager 
DataNode 
TaskTracker 
NodeManager 





器 上 的 每 一 个 守护 进程 导 


出 keytab ( 密 钥 库 ) 文件 。 每 个 主机 / 角色 所 需 SPN、 它 们 各 自 所 属 的 keytab 文件 的 推荐 
名 称 如 表 5-6 所 示 。 对 于 每 个 服务 器 需要 创建 不 同 的 keytab 文件 。 为 了 能 在 所 有 主机 上 使 
用 相同 配置 (此 时 不 同 服务 器 上 的 同名 keytab 文件 含有 不 同 密 钥 )， 建 议 每 个 守护 进程 都 











主机 名 守护 进程 密 钥 文 件 SPN 

nnl.example.com NameNode/JournalNode hdfs.keytab hdfs/nn1.example.com@EXAMPLE.COM 
HTTP/nn1.example.com@EXAMPLE.COM 

nn2.example.com NameNode/JournalNode hdfs.heytab hdfs/nn2.example.com@EXAMPLE.COM 
HTTP/nn2.example.com@EXAMPLE.COM 

snn.example.com SecondaryNameNode/JournalNode — hdfs.keytab hdfs/snn.example.com ?9EXAMPLE.COM 
HTTP/snn.example.com 9 EXAMPLE.COM 

rm.example.com ResourceManager yarn.keytab yarn/rm.example.com? EXAMPLE.COM 

jtexample.com — JobTracker mapred.keytab mapred/jt.example.com(? EXAMPLE.COM 
HTTP/jt.example.com? EXAMPLE.COM 

JobHistoryServer mapred.keytab mapred/jt.example.com(? EXAMPLE.COM 
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( 续 ) 


SPN 





主机 名 守护 进程 密 钥 文件 
dnl.example.com DataNode hdfs.keytab 
TaskTracker mapred.keytab 
NodeManager yarn.keytab 
dn2.example.com DataNode hdfs.keytab 
TaskTracker mapred.keytab 
NodeManager yarn.keytab 
dn3.example.com DataNode hdfs.keytab 
TaskTracker mapred.keytab 
NodeManager yarn.keytab 





个 守护 进程 的 密 钥 和 keytab 文件 结合 起 来 。 











我 们 推荐 将 相应 的 keytab 文件 存储 在 SHADOOP_CONF_DIR 
配置 文件 完整 示例 





hdfs/dn 1.example.com@EXAMPLE.COM 
HTTP/dn1.example.com@EXAMPLE.COM 
mapred/dn1.example.com@EXAMPLE.COM 
HTTP/dn1.example.com@EXAMPLE.COM 
yarn/dn1.example.com@EXAMPLE.COM 
HTTP/dn1.example.com@EXAMPLE.COM 
hdfs/dn2.example.com@EXAMPLE.COM 
HTTP/dn2.example.com@EXAMPLE.COM 
mapred/dn2.example.com@EXAMPLE.COM 
HTTP/dn2.example.com@EXAMPLE.COM 
yarn/dn2.example.com @ EXAMPLE.COM 
HTTP/dn2.example.com@EXAMPLE.COM 
hdfs/dn3.example.com@EXAMPLE.COM 
HTTP/dn3.example.com@EXAMPLE.COM 
mapred/dn3.example.com@EXAMPLE.COM 
HTTP/dn3.example.com@EXAMPLE.COM 
yarn/dn3.example.com @ EXAMPLE.COM 
HTTP/dn3.example.com@EXAMPLE.COM 








导出 keytab 文件 时 需要 注意 ， 因 为 默认 的 设置 是 ， 每 导出 一 个 主体 就 将 
Kerberos 密 钥 随机 化 。 用 户 可 以 将 每 个 主体 导出 ， 然 后 使 用 ktutil 工具 将 每 





目录 中 (一 般 是 /etc/hadoop/conf) 。 


配置 文件 的 完整 示例 在 本 书 GitHub 主页 的 示例 资源 (http://bit.ly/1EAEmTr) 


中 。 


创建 所 需 的 SPN 并 分 发 keytab 后 ， 需 要 对 Hadoop 进行 配置 ， 以 使 用 Kerberos 进行 身份 验 


证 。 如 示例 5-5 所 示 ， 首 先 将 core-site.xnml 文件 的 hadoop.security.authentication 参数 


设 为 kerberos, 


示例 5-5 ”将 身份 验证 类 型 配置 为 Kerberos 


<property> 
<name>hadoop. security. authentication</name> 
<value>kerberos</value> 

</property> 





1. HDFS 

接 下 来 ， 需 要 为 每 个 服务 配置 Kerberos 主体 和 keytab 文件 。 对 于 NameNode， 还 必须 设 
E dfs.block.access.token.enable 为 true， 以 启用 块 访问 令 牌 。NameNode 的 配置 应 当 在 
hdfs-site.xml 文件 中 进行 ， 如 示例 5-6 所 示 。 


示例 5-6 配置 NameNode 


<property> 
<name>dfs.block.access.token.enable</name> 
<value>true</vaLlue> 

</property> 

<property> 
<name>dfs.namenode.keytab. file</name> 
<value>hdfs.keytab</value> 

</property> 

<property> 
<name>dfs.namenode.kerberos.principal</name> 
«value-hdfs/ HOSTQEXAMPLE . COM«/value» 

</property> 

<property> 
<name>dfs.namenode.kerberos.internal.spnego.principal</name> 
«value-HTTP/. HOSTQEXAMPLE . COM« / value» 

</property> 


如 果 没有 启用 HDFS 的 高 可 用 模式 ， 接 下 来 则 需要 在 hdfs-site. xml 文件 中 对 SecondaryNameNode 
进行 配置 ， 如 示例 5-7 所 示 。 





示例 5-7 配置 SecondaryNameNode 


<property> 
<name>dfs.secondary.namenode.keytab. file</name> 
<value>hdfs.keytab</value> 

</property> 

<property> 
<name>dfs.secondary.namenode.kerberos.principal</name> 
<value>hdfs/_HOST@EXAMPLE.COM</vaLlue> 

</property> 

<property> 
<name>dfs.secondary.namenode.kerberos.internal.spnego.principal</name> 
«value»HTTP/ HOSTQEXAMPLE . COM</value> 

</property> 


如 果 启 用 了 HDFS 的 高 可 用 模式 ， 则 需要 在 hdfs-site.xml 文件 中 对 JournalNode 进行 如 下 
配置 ， 如 示例 5-8 所 示 。 


示例 5-8 配置 JournalNode 


<property> 
<name>dfs.journalnode. keytab. file</name> 
<value>hdfs.keytab</value> 

</property> 

<property> 
<name>dfs. journalnode.kerberos.principal</name> 
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<VvaLue>hdfs/_HOSTQEXAMPLE.COM</vaLue> 

</property> 

<property> 
<name>dfs.journalnode.kerberos.internal.spnego.principal</name> 
<value>HTTP/_HOST@EXAMPLE.COM</value> 

</property> 


接 下 来 ， 按 照 如 下 设置 ， 在 hdfs-site.xml 文件 中 配置 DataNode。 除 了 要 配置 keytab 和 主 
体 名 之 外 ， 还 必须 对 DataNode 进行 设置 ， 使 其 对 RPC fü HTTP 服务 使 用 特权 端口 。 之 所 
以 使 用 特权 端口 是 因为 ，DataNode 的 数据 传输 协议 并 不 使 用 Hadoop 的 RPC 框架 。 通 过 特 
权 端 口 ，DataNode 能 够 验证 其 是 由 root 通过 jsvc 发 起 的 ， 如 示例 5-9 所 示 。 


























示例 5-9 配置 DataNode 


<property> 
<name>dfs.datanode. address</name> 
<value>0.0.0.0:1004</value> 

</property> 

<property> 
<name>dfs.datanode.http.address</name> 
<value>0.0.0.0:1006</value> 

</property> 

<property> 
<name>dfs.datanode.keytab. file</name> 
<value>hdfs.keytab</value> 

</property> 

<property> 
<name>dfs.datanode.kerberos.principal</name> 
«value-hdfs/ HOSTQEXAMPLE .COM</value> 

</property> 


WebHDFS 是 基于 REST 的 数据 访问 协议 。WebHDFS 的 职责 是 ， 从 存 有 被 读 取 块 的 
DataNode 中 读 取 数据 ， 并 通过 HTTP 对 外 提供 数据 。 为 了 安全 访问 WebHDFS， 需 要 设置 
存 于 NameNode 和 DataNode 的 hdfs-site.xml 文件 中 的 下 列 参 数 ， 如 示例 5-10 所 示 。 








示例 5-10 ”配置 WebHDFS 


<property> 
<name>dfs.web.authentication.kerberos.keytab</name> 
«value-hdfs.keytab«/value» 

</property> 

<property> 
<name>dfs.web. authentication. kerberos.principal</name> 
<value>HTTP/_HOST@EXAMPLE. COM« / value» 


</property> 
现在 ，HDFS 的 配置 就 算 完 成 了 ! 
2. YARN 


现在 配置 YARN, M ResourceManager 开始 。 先 设置 yarn-site.xml 文件 中 的 配置 参数 ， 
如 示例 5-11 所 示 。 











示例 5-11 配置 ResourceManager 


<property> 
«name»yarn.resourcemanager.principal«/name» 
«value»yarn/ HOSTQEXAMPLE . COM«/value» 

</property> 

<property> 
«name»yarn.resourcemanager .webapp. spnego-principal</name> 
«value»HTTP/ HOSTQEXAMPLE . COM</value> 

</property> 

<property> 
<name>yarn.resourcemanager .keytab</name> 
<value>yarn.keytab</value> 

</property> 

<property> 
<name>yarn. resourcemanager .webapp.spnego-keytab- file</name> 
<value>yarn.keytab</value> 

</property> 


在 yarn-site.xml 文件 中 对 参数 进行 设置 ， 将 NodeManager 配置 为 使 用 Kerberos, Zur fi) 
5-12 所 示 。 








示例 5-12 ”配置 NodeManager 


<property> 
<name>yarn.nodemanager .principal</name> 
«value»yarn/ HOSTQEXAMPLE .COM</value> 

</property> 

<property> 
<name>yarn.nodemanager .webapp. spnego-principal</name> 
«value»HTTP/ HOSTQEXAMPLE . COM«/value» 

</property> 

<property> 
<name>yarn.nodemanager .keytab</name> 
<value>yarn.keytab</value> 

</property> 

<property> 
<name>yarn.nodemanager .webapp. spnego-keytab-file</name> 
<value>yarn.keytab</value> 

</property> 


除了 将 NodeManager 配置 为 使 用 Kerberos 进行 身份 验证 外 ， 还 需要 设置 NodeManager 
使 用 LinuxContainerExecutor, LinuxContainerExecutor 使 用 一 个 setuid 程 序 启 动 
YARN 容器 ， 这 使 得 NodeManager 能 够 使 用 提交 作业 的 用 户 UID 执行 容器 。 因 此 ， 需 
要 一 个 安全 的 配置 ， 以 确保 Alice 不 能 访问 Bob 执行 的 容器 所 创建 的 文件 。 如 果 没 有 
LinuxContainerExecutor, yarn 用 户 和 容器 就 能 够 相互 访问 彼此 的 本 地 文件 ， 这 会 造成 所 
有 容器 都 被 运行 。 首 先 ， 配 置 yarn-site.xml 文件 ， 如 示例 5-13 所 示 。 


示例 5-13 ”配置 NodeManager 使 用 LinuxContainerExecutor 


<property> 
<name>yarn.nodemanager .container -executor.class</name> 
<value>org.apache.hadoop. yarn.server .nodemanager .LinuxContainerExecutor</vaLlue> 


</property> 
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<property> 
«name»yarn.nodemanager.linux-container-executor.group«/name» 
«value»yarn«/value» 

</property> 


还 需要 配置 执行 器 程序 本 身 ， 配 置 container -executor .cfg 文件 中 的 参数 即 可 ， 如 示例 5-14 
所 示 。yarn.nodemanager .Linux-container-executor.group 参数 的 值 应 当 与 yarn-site.xml 
文件 和 container-executor.cfg 文件 中 的 值 保 持 一 致 。 通 稼 该 值 被 设 为 yarn。 


























示例 5-14 配置 LinuxContainerExecutor 


yarn.nodemanager . Linux-container -executor .group=yarn 
min.user.id=1000 
allowed.system.users=nobody,impala,hive, Llama 
banned.users=root,hdfs,yarn,mapred,bin 


对 min.user.id 的 设 定 用 于 防止 LinuxContainerExecutor 运行 UID 小 于 该 参数 值 的 容器 。 
该 值 通常 被 设 为 1000 或 500， 具体 取决 于 普通 用 户 的 UID 在 实际 环境 中 的 开始 位 置 。 除 
了 该 设置 之 外 ， 还 可 以 设置 明确 的 用 户 白 名 单 和 黑 名 单 。 这 种 设置 专门 允许 用 户 中 的 hive 
用 户 运 行 容 器 。 启 用 Apache Sentry 时 需要 进行 该 项 配置 ， 因 为 Sentry 启用 时 ，Hive 代理 
是 被 关闭 的 。 

配置 YARN 使 用 Kerberos 的 最 后 一 步 是 配置 JobHistoryServer， 设 定 mapredsite.xml 文件 
中 的 参数 即 可 ， 如 示例 5-15 所 示 。 


























示例 5-15 为 Kerberos 配置 JobHistoryServer 


<property> 
<name>mapreduce. jobhistory.principal</name> 
<value>mapred/_HOST@EXAMPLE.COM</value> 

</property> 

<property> 
<name>mapreduce. jobhistory.webapp. spnego-principal</name> 
<value>HTTP/_HOST@EXAMPLE.COM</value> 

</property> 

<property> 
<name>mapreduce. jobhistory.keytab</name> 
«value»mapred.keytab«/value» 

</property> 

<property> 
<name>mapreduce. jobhistory.webapp.spnego-keytab-file</name> 
<value>mapred.keytab</value> 

</property> 


3. MapReduce (MR1) 


如 果 用 户 仍 在 使 用 MR1， 则 可 以 跳 过 上 面 的 YARN 配置 ， 直 接 对 JobTracker 和 TaskTracker 进 
行 配 置 。 首 先 ， 配 置 mapred-site.xml 文件 中 的 参数 ， 如 示例 5-16 所 示 。 
































示例 5-16 为 Kerberos 配置 JobTracker 


<property> 
<name>mapreduce. jobtracker .kerberos.principal</name> 
<value>mapred/_HOST@EXAMPLE.COM</value> 





</property> 

<property> 
<name>mapreduce. jobtracker.keytab. file</name> 
<value>mapred.keytab</value> 

</property> 


对 TaskTracker 的 配置 也 同样 简单 。 配 置 mapred-site.xmlt 文件 中 的 参数 ， 如 示例 5-17 
所 示 。 


示例 5-17 为 Kerberos 配置 TaskTracker 


<property> 
<name>mapreduce. tasktracker.kerberos.principal</name> 
«value»mapred/ HOSTQEXAMPLE . COM« / value» 

</property> 

<property> 
<name>mapreduce. tasktracker .keytab. file</name> 
<value>mapred.keytab</value> 

</property> 





示例 5-12 和 示例 5-13 中 ， 配 置 NodeManager 时 也 需要 启用 LinuxContainerExecutor, 3X 
相当 于 MRI 中 的 LinuxTaskController。 先 配置 mapred-site.xml 文件 中 的 参数 ， 如 示例 
5-18 所 示 。 





示例 5-18 ”使 用 LinuxTaskController 配置 TaskTracker 

<property> 
<name>mapred. task. tracker.task-controller</name> 
<value>org.apache.hadoop.mapred.LinuxTaskController</vaLlue> 

</property> 

<property> 
<name>mapreduce. tasktracker .group</name> 
<value>mapred</value> 

</property> 


还 需要 配置 任务 控制 器 本 身 。 设 置 taskcontroller.cfg 文件 中 的 参数 ， 确 保 mapreduce. 
tasktracker.group 的 值 与 mapred-site.xml 文件 中 使 用 的 值 相 匹配 ， 该 值 通常 为 mapred。 
与 LinuxContainerExecutor rja], LinuxTaskController 不 人 允许 设置 一 个 被 允许 的 系统 用 户 
列表 。 这 意味 着 ， 如 果 你 需要 人 允许 特定 的 系统 用 户 运行 作 业 ， 那 么 可 能 要 降低 min.user. 
id 的 值 ， 并 增加 banned.users 列表 中 明确 禁止 的 用 户 个 数 ， 如 示例 5-19 所 示 。 























示例 5-19 配置 LinuxTaskController 


mapred. local.dir=/mapred/local 

hadoop. log. dir=/var/log/hadoop-0.20-mapreduce 
mapreduce. tasktracker .group=mapred 
banned.users=root,mapred,hdfs,bin 
min.user.id=1000 


4. Oozie 

如 前 所 述 ，Oozie 支持 使 用 Kerberos 进行 身份 验证 。 在 Oozie 中 启用 身份 验证 前 ， 需 要 先 
配置 Oozie， 使 其 在 访问 Hadoop 时 对 自己 进行 验证 。 可 以 通过 配置 如 下 参数 实现 (示例 
5-20 展示 了 一 种 合适 的 参数 配置 )。 
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oozie.service.HadoopAccessorService.kerberos.enabled 
hadoop.security.authentication 设 为 kerberos 时 ， 该 值 设 为 true, 


local.realm 
将 该 值 设 为 Hadoop 集群 的 默认 域 ， 这 与 krb5.conf 文件 中 default realn 配置 的 域 应 
该 是 相同 的 。 

oozie.service.HadoopAccessorService.kerberos.principal 
Oozie 用 于 进行 身份 验证 的 Kerberos 主体 ， 通 常 是 oozie/<fqdn>@<REALM>, krh <fqdn> 
是 运行 Oozie 的 服务 器 的 完全 限定 域名 〈 即 域名 全 称 ) «REALM» 是 本 地 Kerberos 域 。 


oozie.service.HadoopAccessorService.keytab.file 


keytab 文件 路 径 ， 该 文件 含有 配置 的 Kerberos 主体 的 密 钥 。 
示例 5-20 ”配置 Oozie， 使 之 支持 启用 Kerberos 的 Hadoop 集群 


<property> 
<name>oozie.service.HadoopAccessorService.kerberos.enabled</name> 
<value>true</value> 

</property> 

<property> 
<name>Local.realm</name> 
«value-EXAMPLE .COM</value> 

</property> 

<property> 
<name>oozie.service.HadoopAccessorService. keytab. file</name> 
<value>oozie.keytab</value> 

</property> 

<property> 
<name>oozie.service.HadoopAccessorService.kerberos.principal</name> 
«value»oozie/oozie01.example.comQEXAMPLE . COM«/value» 

</property> 


Oozie 被 配置 为 支持 启用 Kerberos 的 Hadoop 集群 后 ， 即 可 配置 Oozie 使 用 Kerberos 进行 
用 户 身 份 验证 。 相 关 设 置 如 下 (示例 5-21 展示 了 一 个 配置 样 例 ) 。 
oozie.authentication.type 


设置 用 户 所 需 的 认证 类 型 ， 可 设 为 simple (默认 值 )、kerberos 或 实现 Hadoop 
AuthenticationHandler 接口 的 类 的 全 称 。 








TS 





oozie.authentication.token.validity 
认证 令 牌 的 有 效 时 间 ， 以 秒 为 单位 。 认 证 令 牌 会 在 初始 的 认证 方法 (通常 是 Kerberos/ 
SPNEGO) Ja, LA cookie 的 形式 返回 。 
oozie.authentication.signature.secret 
用 于 对 认证 令 牌 签名 的 密 文 。 如 果 为 空 ， 则 会 在 启动 时 生成 一 个 随机 密 文 。 如 果 Oozie 
被 配置 为 HA 模式 ， 则 所 有 Oozie 服务 器 上 的 该 值 必须 相同 。 
oozie.authentication.cookie.domain 


生成 认证 cookie 时 使 用 的 域名 ， 该 值 应 当 设置 为 集群 的 域名 。 























oozie.authentication.kerberos.principal 
用 于 Oozie 服务 的 Kerberos 主体 。 由 于 Oozie 使 用 SPNEGO over HTTP 进行 认证 ， 
值 必须 设 为 HTTP/<fqdn>@<REALM>， 其 中 <fqdn> 是 Oozie 服务 器 的 域名 全 称 ，<REALM> 是 
本 地 Kerberos 域 。 

















oozie.authentication.kerberos.keytab 


keytab 文件 路 径 ， 该 文件 包含 Kerberos 主体 的 密 钥 。 


oozie.authentication.kerberos.name.rules 


将 Kerberos 主体 转换 为 本 地 用 户 名 的 规则 。 该 参数 的 格式 与 Hadoop 的 hadoop. 
security.auth to local 参数 的 格式 一 样 ， 如 何 进 行 配置 请 参考 5.1.1 节 和 示例 5-21, 


示例 5-21 配置 使 用 Kerberos 认证 的 Oozie 


<property> 
<name>oozie. authentication. type</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>oozie. authentication. token. validity</name> 
<value>36000</value> 

</property> 

<property> 
<name>oozie. authentication. signature. secret</name> 
<value>FiSEcve7lBsdGpvr</value> 

</property> 

<property> 
<name>oozie. authentication. cookie. domain</name> 
<value>exampLle.com</value> 

</property> 

<property> 
<name>oozie. authentication.kerberos.principal</name> 
<value>HTTP/oozie01.example. com@EXAMPLE.COM</value> 

</property> 

<property> 
<name>oozie. authentication.kerberos.principal</name> 
<value>oozie.keytab</value> 

</property> 

<property> 
<name>oozie. authentication.kerberos.name.rules</name> 
«value»DEFAULT«/value» 

</property> 


如 果 以 HA 模式 运行 Oozie， 则 需要 一 些 额外 配置 。 首 先 应 当 配 置 oozie-site.xmt 文件 中 
的 oozie.zookeeper.secure， 让 Oozie 使 用 ZooKeeper ACL， 如 示例 5-22 所 示 。 


示例 5-22 ”在 oozie-site.xml 中 为 Oozie 配置 ZooKeeper ACL 


<property> 
<name>oozie. zookeeper . secure</name> 
<value>true</value> 

</property> 


ARE Æ Hadoop 2.5.0 以 前 的 版 本 中 使 用 Oozie， 则 需要 在 HTTP 主体 名 称 中 使 用 负载 均衡 
器 的 完全 限定 域名 。 例 如 ， 如 果 有 运行 在 oozie01.example.com 和 oozie02.example.com 上 
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的 Oozie 服务 器 ， 以 及 运行 在 oozie.example.com 上 的 负载 均衡 器 ， 那 么 应 当 在 所 有 Oozie 
服务 器 中 使 用 HTTP/oozie.example.com@EXAMPLE.COM 作为 主体 。 该 模式 下 ， 只 能 通过 负载 
均衡 器 访问 。 另 外 ， 一 些 诸如 日 志 流 的 功能 也 不 能 用 。 这 一 步 应 当 在 oozie-site.xml 文件 
中 配置 以 下 内 容 ， 如 示例 5-23 所 示 。 


示例 5-23 在 负载 均衡 环境 下 配置 Oozie SPN 


<property> 
<name>oozie.authentication.kerberos.principal</name> 
<value>HTTP/oozie.example.com@EXAMPLE .COM</value> 
</property> 


从 Hadoop 2.5.0 开始 ， 可 以 在 Oozie 的 keytab 文件 中 包含 多 个 Kerberos 主体 。 这 种 情况 
下 ， 可 以 在 keytab 文件 中 加 入 负载 均衡 器 的 主体 和 特定 服务 器 的 主体 (例如 HTTP/oozie. 
example.comQEXAMPLE.COM 和 HTTP/oozie01.example.comQEXAMPLE.COM), 。 随 后 需要 将 oozie. 
authentication.kerberos.principal 设 为 *， 如 示例 5-23 所 示 。 








示例 5-24 配置 具有 多 个 SPN 的 Oozie 
<property> 
<name>oozie.authentication.kerberos.principal</name> 
<value>*</value> 
</property> 
5. HBase 
配置 使 用 Kerberos 认证 的 HBase 与 配置 核心 Hadoop 是 非常 类 似 的 。 为 了 节约 篇 幅 ， 建 
iX B # The Apache HBase Reference Guide (http://hbase.apache.org/book.html) 的 Securing 
Apache HBase ( http://hbase.apache.org/book.html#security) 章节 。 


5.3 小 结 


本 章 介 绍 了 身份 的 概念 ， 并 展示 了 Hadoop 如 何 使 用 Kerberos 主体 名 映射 用 户 名 。 我 们 还 
看 到 Hadoop 会 获取 用 户 的 组 成 员 信 息 ， 这 一 点 在 第 6 章 讲述 授权 时 会 很 重要 。 

我 们 还 分 析 了 集群 中 进行 身份 验证 的 不 同方 式 。 虽 然 Kerberos 是 一 种 经 典 的 例子 ， 而 且 
也 很 常用 ， 但 我 们 也 看 到 ， 还 有 其 他 使 用 委托 令 牌 进行 身份 验证 的 方式 。 这 是 Hadoop 
身份 验证 架构 中 的 一 个 关键 部 分 ， 因 为 它 减少 了 完成 工作 流 所 必需 的 Kerberos 认证 路 
径 的 数量 (例如 ， 一 个 执行 Hive 查询 Oozie 工作 流转 化 为 MapReduce 作业 其 实 就 是 
处 理 文件 )。 如 果 没 有 委托 令 牌 ， 那 么 每 个 步 又 都 要 请 求 Kerberos 服务 票据 ， 这 增加 了 
Kerberos KDC 的 压力 。 
最 后 介绍 了 用 户 模拟 的 概念 ， 讨 论 了 系统 用 户 如 何 能 够 代表 其 他 用 户 进 行 身份 验证 。 这 是 
个 常用 概念 ， 因 为 终端 用 户 经 常 使 用 介 于 他 们 和 他 们 尝试 访问 的 服务 之 间 的 工具 。 使 用 用 
户 模 拟 ， 系 统 或 服务 就 可 以 使 用 另外 一 个 远程 服务 进行 身份 验证 ， 然 后 像 终 端 用 户 直 接 验 
证 一 样 歼 取 访 问 权 限 。 

接 下 来 ， 我 们 将 走 近 能 够 访问 数据 和 服务 的 用 户 ， 接 着 身份 验证 、 授 权 和 审计 的 话题 讨论 
授权 。 






































第 6 章 


授权 





通过 5.2 节 ， 我 们 了 解 了 各 种 Hadoop 生态 系统 项 目 如 何 支持 强 认证 以 确保 用 户 就 是 他 们 所 
声称 的 那个 人 。 然 而 ， 身 份 验证 只 是 安全 整体 的 一 部 分 ， 你 还 需要 对 已 认证 用 户 可 以 执行 
哪些 操作 和 访问 哪些 数据 进行 建 模 。 这 种 资源 保护 的 方式 称 为 授权 ， 这 可 能 也 是 Hadoop 
安全 中 最 复杂 的 话题 之 一 。 每 个 服务 提供 的 服务 是 相对 独特 的 ， 因 此 它们 支持 的 授权 模型 
也 相对 独特 。 本 章 将 按照 每 个 服务 如 何 实现 授权 分 成 若干 小 节 。 


我 们 先 看 HDFS 及 其 对 POSIX 文件 权限 的 支持 ， 以 及 对 利用 服务 层 授 权限 制 用 户 访问 特 
4€ HDFS 功能 的 支持 。 接 下 来 讲解 MapReduce 和 YARN， 它 们 支持 的 服务 层 授权 和 用 于 控 
制 系统 资源 访问 的 队列 模型 是 类 似 的 。 对 于 MapReduce 和 YARN， 授 权 有 助 于 安全 和 资源 
管理 /多 任务 处 理 (关于 资源 管理 的 更 多 内 容 ， 推 荐 阅读 Eric Sammer 的 《Hadoop 技术 详 
解 》)。 最 后 介绍 主流 的 BigTable, Apache HBase 以 及 Apache Accumulo 的 授权 特性 ， 并 分 
别 讨 论 基 于 角色 和 基于 属性 的 安全 策略 的 优 缺 点 ， 以 及 对 单元 级 安全 和 列 级 安全 进行 比较 。 


6.1 HDFS 授 权 


HDFS 中 ， 每 进行 一 次 文件 或 目录 访问 都 必须 先 经 过 授权 检查 。HDFS 采用 兼容 POSIX 的 
文件 系统 中 常用 的 授权 方式 。 权 限 由 三 种 不 同类 型 的 用 户 控制 : owner (所 有 者 ) group 
(组 ) 和 others (其 他 )。 每 个 文件 或 目录 都 归 一 个 特定 的 用 户 所 有 ， 该 用 户 构成 了 这 个 对 
象 的 owner 类 。 对 象 还 被 分 配 了 一 个 组 ， 该 组 的 所 有 成 员 构成 了 该 对 象 的 group 类 。 不 是 
对 象 所 有 者 、 也 不 属于 被 分 配 到 该 对 象 组 的 所 有 其 他 用 户 则 构成 others 类 。 读 、 写 和 执行 
权限 可 被 独立 地 授予 各 个 类 。 


这 些 权限 由 一 个 对 权限 值 (4 代表 读 ，2 代表 写 ，1 代表 执行 ) 求 和 后 的 八进制 数字 表示 。 
比如 要 表示 一 个 类 具有 一 个 目录 的 读 和 执行 权限 ， 则 需要 分 配 其 一 个 八进制 数字 5 (4+1)。 
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HDFS 中 ， 将 执行 权限 分 配给 文件 虽然 不 是 非法 的 ， 但 也 没有 意义 。 对 于 目录 来 说 ， 执 行 
位 允许 在 知道 文件 名 的 前 提 下 访问 文件 内 容 和 元 数据 信息 。 为 了 列 出 一 个 目录 里 的 所 有 文 
件 名 ， 需 要 该 目录 的 读 权限 。 


无 论文 件 或 目录 的 权限 是 什么 ， 运 行 NameNode 的 用 户 (通常 是 hdfs) 以 及 dfs. 
permissions.superusergroup 中 定义 的 组 (默认 情况 下 是 supergroup) 中 的 成 员 ， 都 可 以 
对 任意 文件 和 目录 进行 读 、 写 和 删除 操作 。 就 HDFS 而 言 ， 他 们 相当 于 Linux 系统 中 的 
root 用 户 。 


分 配给 owner, group 和 others 的 权限 可 以 用 依次 连接 的 3 个 八进制 值 表示 。 例 如 有 一 个 
文件 ，owner 对 其 具有 读 和 写 权 限 ， 而 所 有 其 他 用 户 对 其 只 有 读 权 限 ， 那 么 该 文件 的 权限 
就 可 以 表示 为 644。6 是 分 配给 owner 类 的 ， 因 为 其 具有 读 和 写 权 限 (4+2); 4 是 分 配给 
group 和 others 类 的 ， 因 为 他 们 只 有 读 权 限 。 对 于 一 个 所 有 用 户 都 对 其 拥有 所 有 权限 的 文 
件 ， 其 权限 为 777。 


除了 标准 权限 之 外 ，HDFS 还 支持 三 种 额外 的 特殊 权限 :setuid、setgid 和 sticky。 这 些 
权限 也 是 用 八进制 数字 表示 的 ，4 代表 setuid, 2 代表 setgid, 1 代表 sticky。 这 些 权限 是 可 
选 的 ， 如 果 使 用 ， 那 么 它们 会 包含 在 常规 权限 位 的 左 侧 。 由 于 HDFS 中 的 文件 是 无 法 执行 
的 ， 因 此 setuid 没有 作用 。setgid 同样 对 文件 没有 影响 ， 但 对 于 目录 而 言 ， 它 将 新 建 的 子 
文件 和 子 目 录 的 group 强制 设 为 其 父 节点 的 group。 这 在 HDFS 中 是 默认 行为 ， 因 此 也 没 
有 必要 刻意 对 目录 启用 setgid。 景 后 一 个 权限 通常 称 为 粘 滞 位 ， 它 意味 着 目录 中 的 文件 只 
能 被 该 文件 的 所 有 者 删除 。 没 有 设置 粘 滞 位 的 情况 下 ,文件 可 以 被 具有 其 所 属 目录 写 权限 
的 任意 用 户 删除 。HDFS 中 ， 无 论 有 没有 设置 粘 滞 位 ， 目 录 所 有 者 以 及 HDFS 超级 管理 员 
都 可 以 对 文件 进行 删除 。 粘 澡 位 对 于 目录 很 有 用 ， 例 如 对 于 /tmp 目录 ， 你 需要 所 有 用 户 都 
拥有 对 该 目录 的 写 权 限 ， 但 该 目录 中 的 数据 只 能 被 各 自 的 所 有 者 删除 。 


HDFS 扩 展 ACL 


使 用 owner、group 和 world (全 局 ) 的 基本 POSIX 权限 ， 以 允许 访问 给 定 的 文件 和 目录 ， 
往往 不 那么 简单 。 两 个 或 更 多 不 同 组 的 用 户 需 要 访问 同样 的 HDFS 目录 时 ,会 怎样 ? 如 果 
使 用 基本 POSIX 权限 ， 那 么 管理 员 有 两 种 方案 :(1) 将 该 目录 设 为 可 全 局 访问 ，(C) 创建 一 
个 包含 所 有 需要 访问 该 目录 的 用 户 组 ， 并 分 配 组 权限 。 这 样 做 并 不 理想 ， 因 为 方案 (0) 使 
得 数据 能 够 被 预期 之 外 的 用 户 访问 ， 而 方案 (2) 从 组 管理 的 角度 来 说 ， 是 个 很 头疼 的 工作 。 
当 一 个 用 户 组 需要 读 权限 ， 而 另外 一 个 用 户 组 需要 读 和 写 权 限时 ， 这 个 问题 就 会 变 得 更 加 
复杂 。 

随 着 Hadoop 2.4 的 发 布 ，HDFS 现在 配备 了 扩展 ACL， 这 些 ACL 的 工作 方式 与 Unix 环境 
中 扩展 ACL 的 工作 方式 几乎 一 样 。 它 允许 HDFS 中 的 文件 和 目录 拥有 比 基 本 POSIX 权限 
更 多 的 权限 。 


要 使 用 HDFS 的 扩展 ACL， 必 须 先 在 NameNode 上 启用 : 将 hdfs-site.xml 中 的 dfs. 
namenode.acls.enabled 属性 设 为 true。 示 例 6-1 展示 了 如 何 使 用 HDFS 的 扩展 ACL. 





























































































































示例 6-1 HDFS 扩展 ACL 
[aliceQhadoop01 ~]$ hdfs dfs -ls /data 


Found 1 items 
drwxr-xr-x 


- alice analysts 0 2014-10-25 19:03 /data/alice 


[aliceQhadoop01 ~]$ hdfs dfs -getfacl /data/alice 
4 file: /data/alice 

# owner: alice 

# group: analysts 


user::rwx 
group::r-x 
other::r-x 


[aliceQhadoop01 ~]$ hdfs dfs -setfacl -m user:bob:r-x /data/alice 
[aliceQhadoop01 ~]$ hdfs dfs -setfacl -m group:developers:rwx /data/alice 
[aliceQhadoop01 ~]$ hdfs dfs -ls /data 


Found 1 items 
drwxr-xr-x* 


- alice analysts 0 2014-10-25 19:03 /data/alice 


[aliceQhadoop01 ~]$ hdfs dfs -getfacl /data/alice 
4 file: /data/alice 

# owner: alice 

# group: analysts 


user: :rwx 
user: bob:r-x 
group: :r-x 


group: developers: rwx 


mask: : rwx 
other::r-x 


[aliceQhadoop01 ~]$ hdfs dfs -chmod 750 /data/alice 
[alice@hadoop01 ~]$ hdfs dfs -getfacl /data/alice 


# file: /data 


/alice 


# owner: alice 
# group: analysts 


user: :rwx 
group: :r-x 


group:developers:rwx #effective:r-x 


mask: :r-x 
other: :--- 
[alice@hadoop 
[alice@hadoop 
# file: /data 
# owner: alic 
# group: anal 
user: :rwx 
group: :r-x 
other: :--- 





01 ~]$ hdfs dfs -setfacl -b /data/alice 
01 ~]$ hdfs dfs -getfacl /data/alice 
/alice 

e 

ysts 





这 里 有 几 点 值得 强调 。 首 先 ， 默认 情况 下 ,文件 和 目录 没有 任何 ACL. RI ACL 项 到 一 





个 对 象 后 ，HDFS 





列表 会 在 权限 列表 中 加 入 一 个 +， 例 如 drwxr-xr-x+。 另 外 ， 添 加 ACL 


项 后 ,一 个 叫 作 mask (4645) 的 属性 会 列 在 ACL 里 ， 它 定义 了 最 严 权 限 。 比 如 用 户 Bob 
拥有 rwx 权限 ， 但 mask 是 r-x， 则 Bob 的 有 效 权 限 是 r-x。getfact 的 输出 里 也 会 这 样 注 
明 ， 如 示例 6-1 所 示 。 


关于 mask 的 另 一 个 重要 的 地 方 是 ， 它 会 根据 ACL 中 设置 的 最 小 限制 权限 做 出 调整 。 例 如 
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一 个 mask 目前 是 r-x， 为 一 个 组 加 入 一 条 新 的 ACL 项 以 授予 其 rwx 权限 时 ，mask 就 会 被 
调整 为 rwx。 





在 包含 扩展 ACL 的 文件 或 目录 上 ， 设 置 标准 POSIX 权限 可 能 会 立即 对 所 有 
ACL 项 产生 影响 ， 因 为 hdfs dfs -chmod 实际 上 会 设置 mask， 无 论 当 前 的 
ACL 项 是 什么 。 例 如 ， 在 文件 或 目录 上 设置 700 权限 的 结果 是 ， 除 所 有 者 之 
外 ， 对 所 有 ACL 项 的 实际 权限 都 是 禁止 访问 ! 























例子 中 最 后 一 部 分 展示 了 如 何 彻 底 移 除 目录 的 ACL 项 ， 只 保留 基本 POSIX 权限 。 关 于 扩 
展 ACL 的 最 后 一 点 是 ， 对 于 每 个 对 象 ( 如 文件 或 目录 )， 最 多 只 能 有 32 个 ACL 项 。 也 
就 是 说 ， 除 去 4 个 项 被 user、group、other 和 mask 占据 ， 还 可 以 添加 28 个 项 。 超 出 之 
后 ，NameNode 就 会 抛 出 一 个 异常 ，setfacL: Invalid ACL: ACL has 33 entries, which 
exceeds maximum of 32, 


另 一 个 扩展 ACL 中 有 用 的 特性 是 默认 ACL 的 使 用 。 一 条 默认 ACL 只 能 应 用 到 一 个 目录 ， 
效果 是 ， 所 有 在 该 目录 中 创建 的 子 目录 和 子 文件 都 会 继承 父 目 录 的 默认 ACL。 例 如 ， 一 个 
目录 具有 一 条 默认 ACL 项 : defautLt:group:anatLysts:rwx， 那 么 该 目录 中 创建 的 所 有 文 从 
都 会 具有 group:analysts:rwx 项 ， 而 子 目录 会 同时 具有 复制 的 默认 ACL 和 访问 ACL。 要 
设置 默认 ACL， 只 需 在 setfacl 命令 中 ， 于 用 户 或 组 的 ACL 项 前 加 入 default: 即 可 。 记 
fE, 默认 ACL 自身 并 不 实施 授权 ， 它 只 定义 了 新 创建 子 目 录 和 文件 的 继承 行为 。 


6.2 服务 级 授权 


Hadoop 还 支持 在 服务 级 进行 授权 。 这 可 以 用 于 控制 哪些 用 户 或 用 户 组 可 以 访问 特定 协 
议 ， 也 可 以 用 于 阻止 流 谍 进 程 伪 装 成 守护 进程 。 将 core-site.xml 中 的 hadoop. security. 
authorization 项 设 为 true， 即 可 启用 服务 级 授权 。 实 际 的 策略 在 hadoop-policy.xml 文件 
中 进行 配置 ， 这 个 文件 在 结构 上 与 标准 配置 文件 类 似 ， 每 个 属性 用 一 个 property 标签 定 
义 ， 每 个 property 标签 包含 一 个 表示 属性 名 称 和 一 个 表示 属性 值 的 子 标签 。 每 个 服务 级 授 
权 属 性 使 用 一 组 以 逗号 分 隔 的、 能 够 访问 该 协议 的 用 户 和 组 ， 以 定义 一 个 访问 控制 列 
# (ACL)。 两 种 列表 使 用 空格 分 了 喇 ， 开 头 的 空格 表示 空 的 用 户 列 表 ， 结 尾 的 空格 表示 空 
的 组 列表 。 特 殊 值 * 表示 人 允许 所 有 用 户 访问 该 协议 (这 也 是 默认 设置 )。 表 6-1 提供 了 一 些 
示例 ACL。 


表 6-1: Hadoop 访 问 控制 列表 
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ACL 含义 
"t 允许 所 有 用 户 
不 允许 任何 用 户 
"alice,bob hdusers" 允许 alice, bob 和 hdusers 组 里 的 任意 用 户 
"alice,bob " (末尾 有 空格 ) 允许 alice 和 bob， 但 不 允许 任何 组 
" hdusers" (开头 有 空格 ) " 允许 hdusers 组 里 的 任意 用 户 ， 但 不 允许 其 他 用 户 


























了 解 可 用 的 ACL 之 前 ， 我 们 先 定义 一 些 用 户 和 组 ， 以 帮助 指导 配置 。 假 定 有 一 个 含有 少 
量 用 户 和 一 个 Hadoop 管理 员 的 小 集群 。 集 群 用 户 拥有 Linux 工作 站 ， 我 们 想 保证 用 户 能 
够 尽 可 能 多 地 在 他 们 的 工作 站 上 进行 开发 ， 因 此 不 打算 在 工作 站 网 络 和 集群 之 间 放 置 防 火 
墙 。 此 外 ， 假 定 还 有 一 个 定义 了 整个 企业 网 用 户 和 组 的 中 心 Active Directory， 集 群 的 KDC 
被 配置 为 使 用 单 向 信任 ， 以 允许 AD 用 户 不 需要 新 凭证 就 能 登录 到 集群 。 现 在 ， 我 们 想 让 
Hadoop 开发 者 能 够 访问 集群 ， 但 又 不 想 让 整个 公司 都 能 浏览 HDFS 或 者 启动 MapReduce 
作业 。 为 了 帮助 设置 ， 我 们 配置 了 两 个 组 ， 一 个 为 hadoop-users， 另 一 个 为 hadoop- 
admins。 由 于 这 是 一 个 新 环境 , 我 们 首先 只 把 3 个 用 户 一 一 Alice、Bob 和 Joey 添 到 hadoop- 
users £H, Joey 是 认证 过 的 Hadoop 管理 员 ， 所 以 也 将 他 加 入 hadoop-admins 组 。 


支持 服务 级 授权 的 有 HDFS, MapReduce (MR1) #0 YARN (MR2)。 示 例 中 的 协议 ACL 
和 推荐 的 配置 值 见 表 6-2~ 表 6-4， 它 们 分 别 为 HDFS、MapReduce (MR1) 和 YARN 
(MR2) 而 定义 。 其 中 一 些 属性 是 服务 间 共 享 的 (比如 刷新 策略 配置 的 协议 )， 因 此 它们 会 
在 多 个 表 中 出 现 。 由 于 Hadoop 2.3 不 包含 MR1， 所 以 一 些 针对 MRI 策略 的 属性 名 会 有 所 
不 同 ， 部 署 Hadoop 1.2 或 者 包含 配合 HDFS 使 用 的 MRI 的 Hadoop 2.x 发 行 版 时 使 用 MRI 
属性 名 。 

表 6-2: HDFS 服 务 级 授权 属性 

属性 名 描述 推荐 值 
security.client.protocol.acl 访问 NameNode 协议 的 客户 端 ， 用 "yarn,mapred hadoop-users" 
户 代 码 通过 DistributedFileSystem 

类 

























































































类 使 用 
security.client.datanode.protocol.acl 访问 DataNode 协议 的 客户 端 "yarn,mapred hadoop-users" 
security.get.user.mappings.protocol.acl ”获取 用 户 映 射 到 的 组 的 协议 "yarn,mapred hadoop-users" 
security.datanode.protocol.acl 访问 NameNode 协议 的 DataNode "hdfs" 
security.inter.datanode.protocol.acl 访问 DataNode 协议 的 DataNode "hdfs" 
security.namenode.protocol.acl 访问 NameNode 协议 的 Secondary- "hdfs" 
NameNode 
security.qjournal.service.protocol.acl 访问 JournalNode 协议 的 NameNode "hdfs" 
security.zkfc.protocol.acl ZKFailoverController 暴露 的 协议 "hdfs" 
security.ha.service.protocol.acl hdfs hadmin 命令 管理 NameNode 的 "hdfs,yarn hadoop-admins" 
HA 状态 所 使 用 的 协议 
security.refresh.policy.protocol.acl hdfs hadmin 命令 加 载 最 新 hadoop- " hadoop-admins" 
policy.xml 文件 所 使 用 的 协议 
security.refresh.user.mappings.protocol.acl 刷新 用 户 到 组 映射 关系 的 协议 " hadoop-admins" 
表 6-3: MapReduce (MR1) 服务 级 授权 属性 
属性 名 描述 推荐 值 











security.task.umbilical.protocol.acl MR 任务 报告 任务 进度 所 用 的 协议 "xn 
注意 : 必须 设 为 * 

security. job.submission.protocol.acl 客户 端 向 JobTracker 提交 作业 所 用 " hadoop-users" 
的 协议 
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属性 名 描述 推荐 值 
security.inter.tracker.protocol.acl TaskTracker 与 JobTracker 通信 所 用 "mapred" 
的 协议 
security.refresh.policy.protocol.acl hadoop mradmin 命令 加 载 最 新 的 " hadoop-admins" 
hadoop-policy.xml 文件 所 用 的 协议 
security.refresh.usertogroups.mappings. 刷新 用 户 到 组 映射 关系 的 协议 " hadoop-admins" 
protocol.acl 注意 : 属性 名 在 Hadoop 2.0 中 有 所 
改变 
security.admin.operations.protocol.acl hadoop mradmin 命令 刷新 JobTracker " hadoop-admins" 


表 6-4; 
属性 名 


security. 


security. 


security. 


security. 


security. 


security. 


security. 


security 


的 队列 和 节点 所 用 的 协议 


YARN 和 MR2 的 服务 级 授权 属性 


.resourcetracker.protocol.acl 


job.task.protocol.acl 


containermanagement.protocol.acl 


applicationmaster.protocol.acl 


get.user.mappings.protocol.acl 


applicationclient.protocol.acl 


job.client.protocol.acl 


mrhs.client.protocol.acl 


security.resourcemanager-administration. 


protocol 


security.resourcelocalizer.protocol.acl 


security.ha.service.protocol.acl 


security.refresh.policy.protocol.acl 


.acl 


描述 

MR 任务 报告 任务 进度 所 用 的 协议 

TER: 必须 设 为 * 

ApplicationMaster 与 NodeManager 通信 所 
用 的 协议 

TER: 必须 设 为 * 





ApplicationMaster 与 ResourceManager 通信 
所 用 的 协议 
注意 : 必须 设 为 * 


获取 用 户 映 射 到 的 组 的 协议 

















客户 端 向 ResourceManager 提交 应 用 所 用 的 
协议 

作业 客户 端 与 MR ApplicationMaster 通信 所 
用 的 协议 

作业 客户 端 与 MapReduce JobHistory Server 
通信 所 用 的 协议 

访问 NodeManager 协议 的 ResourceManager 








yarn rmadmin 命令 管理 ResourceManager 所 
用 的 协议 

ResourceLocalizationService 和 NodeManager 
之 间 通 信 所 用 的 协议 

yarn rmadmin 命令 管理 ResourceManager 的 
HA 状态 所 用 的 协议 
yarn rmadmin 命令 加 载 最 新 的 hadoop- 
policy.xml 文件 所 用 的 协议 




















security.refresh.user.mappings.protocol.acl 刷新 用 户 到 组 映射 关系 的 协议 





推荐 值 


"yn 


"yn 


"yn 


"yarn,mapred 
hadoop-users" 

" hadoop-users" 
" hadoop-users" 


" hadoop-users" 


"yarn" 


"yarn" 
"testing" 
"hdfs,yarn 
hadoop- admins" 


" hadoop-admins" 


" hadoop-admins" 





你 可 能 会 注意 到 ， 虽 然 我 们 想 让 集群 尽量 封闭 ， 但 还 是 不 得 不 配置 了 4 个 允许 任意 用 户 连 
接 的 协议 。 这 么 做 的 原因 是 ， 这 些 协议 需要 被 正在 运行 的 任务 访问 ， 这 些 任务 会 使 用 应 用 
尝试 (Application Attempt) 或 任务 尝试 (Task Attempt) 的 身份 。 而 任务 每 次 运行 使 用 的 
身份 都 不 一 样 ， 也 与 运行 作业 的 用 户 名 毫 无 关系 。 由 于 这 些 身 份 无 法 提前 枚 举 ， 所 以 也 无 
法 将 它们 列 到 ACL 或 者 添加 到 可 以 限制 协议 访问 的 用 户 组 。 这 不 是 个 大 问题 ， 因 为 这 些 
接口 被 作业 令 牌 (参见 5.2.3 节 ) 进一步 保护 着 ,访问 接口 前 必须 提交 作业 令 牌 。 


大 多 数 协议 可 以 分 为 两 类 : 需要 被 客户 端 访 问 的 协议 ， 管 理 协议 。 如 果 想 限制 只 有 白 
名 单 里 的 用 户 或 组 可 以 使 用 Hadoop， 可 以 将 客户 端 协议 设 为 更 严格 的 值 。 但 是 注意 ， 
security.job.task.protocol.acl (YARN/MR2) 和 security.task.umbilical.protocol.acl 
(MR1) 必须 始终 设 为 *。 这 么 要 求 是 因为 ， 使 用 这 些 协议 的 用 户 通常 被 设 为 MapReduce 作 
业 的 作业 ID， 每 个 作业 ID 都 会 变 ， 而 且 也 不 会 出 现在 为 你 的 集群 配置 的 用 户 组 里 。 因 此 ， 
如 果 这 些 属 性 设置 为 * 之 外 的 其 他 值 ， 可 能 导致 作业 失败 。 下 面 看 两 个 用 户 会 话 ， 首 先 使 
用 hadoop-policy.xml 中 的 默认 配置 (示例 6-2) ， 然 后 使 用 表格 中 的 推荐 值 (示例 6-3)。 


示例 6-2 使 用 默认 的 服务 级 授权 策略 


[alice@hadoop01 ~]$ hdfs dfs -ls . 

Found 2 items 

drwx------ - alice alice 0 2014-03-29 18:59 .Trash 
drwx------ - alice alice 0 2014-03-29 18:59 .staging 















































[alice@hadoop01 ~]$ hdfs dfs -put file.txt . 


[alice@hadoop01 ~]$ hdfs dfs -rm file.txt 

14/03/29 21:26:07 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 1440 minutes, Emptier interval = 0 minutes. 

Moved: 'hdfs://hadoop02:8020/user/alice/file.txt' to trash at: 
hdfs://hadoop02:8020/user/alice/.Trash/Current 


[alice@hadoop01 -]$ hdfs dfs -expunge 

14/03/29 21:26:08 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval - 1 minutes, Emptier interval - 0 minutes. 

14/03/29 21:26:09 INFO fs.TrashPolicyDefault: Deleted trash checkpoint: 
/user/alice/.Trash/140329185911 

14/03/29 21:26:09 INFO fs.TrashPolicyDefault: Created trash checkpoint: 
/user/alice/.Trash/140329212609 

[alice@hadoop01 ~]$ hdfs groups 

alice@CLOUDERA : alice production-etl hadoop-users 


[alice@hadoop01 ~]$ hdfs dfsadmin -refreshNodes 
refreshNodes: Access denied for user alice. Superuser privilege is required 





[aliceQhadoop01 ~]$ hdfs dfsadmin -refreshServiceAcl 

[alice@hadoop01 ~]$ hdfs dfsadmin -refreshUserToGroupsMappings 
[aliceQhadoop01 ~]$ hdfs dfsadmin -refreshSuperUserGroupsConfiguration 
[aliceQhadoop01 ~]$ yarn rmadmin -refreshQueues 
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14/03/29 21:26:16 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 


[alice@hadoop01 -]$ yarn rmadmin -refreshNodes 
14/03/29 21:26:18 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 


[alice@hadoop01 -]$ yarn rmadmin -refreshSuperUserGroupsConfiguration 
14/03/29 21:26:19 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 


[alice@hadoop01 ~]$ yarn rmadmin -refreshUserToGroupsMappings 
14/03/29 21:26:21 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 


[alice@hadoop01 ~]$ yarn rmadmin -refreshAdminAcls 
14/03/29 21:26:22 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 


[alice@hadoop01 ~]$ yarn rmadmin -refreshServiceAcl 
14/03/29 21:26:23 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 


[alice@hadoop01 ~]$ yarn rmadmin -getGroups alice 

14/03/29 21:26:25 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

alice : alice production-etl hadoop-users 


[alice@hadoop01 ~]$ yarn jar /opt/cloudera/parcels/CDH/lib/ 
hadoop-mapreduce/hadoop-mapreduce-examples. jar randomtextwriter random-text 

14/03/29 21:26:26 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8032 

Running 30 maps. 

Job started: Sat Mar 29 21:26:27 EDT 2014 

14/03/29 21:26:27 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8032 

14/03/29 21:26:27 INFO hdfs.DFSClient: Created HDFS DELEGATION TOKEN 
token 10 for alice on 172.25.2.223:8020 

14/03/29 21:26:27 INFO security.TokenCache: Got dt for hdfs://hadoop02:8020; 
Kind: HDFS DELEGATION TOKEN, Service: 172.25.2.223:8020, Ident: 
(HDFS DELEGATION TOKEN token 10 for alice) 

14/03/29 21:26:28 INFO mapreduce.JobSubmitter: number of splits:30 

14/03/29 21:26:28 INFO mapreduce.JobSubmitter: Submitting tokens for job: 
job. 1396142628007 0001 

14/03/29 21:26:28 INFO mapreduce.JobSubmitter: Kind: HDFS DELEGATION TOKEN, 
Service: 172.25.2.223:8020, Ident: (HDFS DELEGATION TOKEN token 10 for alice) 

14/03/29 21:26:29 INFO impl.YarnClientImpl: Submitted application 
application 1396142628007 0001 

14/03/29 21:26:29 INFO mapreduce.Job: The url to track the job: 
http://hadoop02:8088/proxy/application 1396142628007 0001/ 

14/03/29 21:26:29 INFO mapreduce.Job: Running job: job 1396142628007 0001 

14/03/29 21:26:38 INFO mapreduce.Job: Job job 1396142628007 0001 running 
in uber mode : false 

14/03/29 21:26:38 INFO mapreduce.Job: map 0% reduce 0% 

14/03/29 21:28:37 INFO mapreduce.Job: map 3% reduce 0% 





14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
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14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 

comple 


14/03/29 21: 


21: 
21% 
21: 
21: 
21: 
21: 
243: 
21: 
21: 
21: 
21: 
21: 
21: 
21: 
21: 
21: 
21: 


ted 


28: 
28: 
29: 
29: 
29: 
29: 
29: 
29: 
29: 
29: 
29: 
30: 
30: 
30: 
30: 
30 : 
38: 


47 
53 
09 
16 
17 
18 
19 
22 
23 
25 
31 
05 
10 
12 
14 
15 
15 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 


successfully 


30:15 INFO mapreduce. 


File System Counters 
FILE: 
FILE: 
FILE: 
FILE: 
FILE: 
HDFS: 
HDFS: 
HDFS: 
HDFS: 
HDFS: 
Job Counters 


Launched map 


Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 


Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 


Job: 


map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 


7% reduce 096 

10% reduce 0% 
17% reduce 0% 
23% reduce 0% 
27% reduce 0% 
30% reduce 0% 
33% reduce 0% 
50% reduce 0% 
60% reduce 0% 
70% reduce 0% 
77% reduce 0% 
83% reduce 0% 
90% reduce 0% 
93% reduce 0% 
97% reduce 0% 
100% reduce 0% 


Job job 1396142628007 0001 


Counters: 29 


bytes read-0 

bytes written-2679890 
read operations=0 

large read operations-0 
write operations=0 

bytes read-4550 

bytes written-33067041057 
read operations-120 

large read operations=0 
write operations-60 


tasks-30 


Other local map tasks-30 
Total time spent by all maps in occupied slots (ms)-4015333 
Total time spent by all reduces in occupied slots (ms)-0 

Map-Reduce Framework 
Map input records-30 


Map output records=49159093 
Input split bytes-4550 


Spilled Records=0 
Failed Shuffles-0 
Merged Map outputs=0 
GC time elapsed (ms)=22565 
CPU time spent (ms)=808110 
Physical memory (bytes) snapshot=12234526720 
Virtual memory (bytes) snapshot=40489713664 
Total committed heap usage (bytes )=12699172864 
org.apache.hadoop.examples.RandomTextWriter$Counters 
BYTES_WRITTEN=32212265105 
RECORDS WRITTEN-49159093 
File Input Format Counters 
Bytes Read-0 
File Output Format Counters 
Bytes Written-33067041057 
Job ended: Sat Mar 29 21:30:15 EDT 2014 
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The job took 227 seconds. 


[alice@hadoop01 ~]$ hdfs dfs -rm -r random-text 

14/03/29 21:30:17 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 1440 minutes, Emptier interval = © minutes. 

Moved: 'hdfs://hadoop02:8020/user/alice/random-text' to trash at: 
hdfs://hadoop02:8020/user/alice/.Trash/Current 


[alice@hadoop01 ~]$ hdfs dfs -expunge 

14/03/29 21:30:18 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 1 minutes, Emptier interval = 0 minutes. 

14/03/29 21:30:19 INFO fs.TrashPolicyDefault: Deleted trash checkpoint: 
/user/alice/.Trash/140329212609 

14/03/29 21:30:19 INFO fs.TrashPolicyDefault: Created trash checkpoint: 
/user/alice/.Trash/140329213019 








示例 6-2 展示 了 Alice 在 使 用 一 系列 用 户 和 管理 命令 。 使 用 默认 的 服务 级 授权 策略 时 ， 虽 
然 有 一 些 命令 (如 hdfs dfsadmin -refreshNodes) 需要 超级 用 户 权限 ， 但 很 多 命令 使 用 默 
认 的 服务 级 授权 策略 时 ， 并 不 需要 特殊 权限 。 示 例 6-3 使 用 前 面 介绍 的 推荐 策略 执行 了 完 


全 相同 的 

















系列 命令 。 


示例 6-3 使 用 推荐 的 服务 级 授权 策略 


[alice@hadoop01 ~]$ hdfs dfs -ls . 

Found 2 items 

drwx------ - alice alice 0 2014-03-29 18:52 .Trash 
drwx------ - alice alice 0 2014-03-29 18:45 .staging 


[alice@hadoop01 ~]$ hdfs dfs -put file.txt . 


[alice@hadoop01 ~]$ hdfs dfs -rm file.txt 

14/03/29 18:54:11 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 1440 minutes, Emptier interval = 0 minutes. 

Moved: 'hdfs://hadoop02:8020/user/alice/file.txt' to trash at: 
hdfs://hadoop02:8020/user/alice/.Trash/Current 


[alice@hadoop01 ~]$ hdfs dfs -expunge 

14/03/29 18:54:13 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 1 minutes, Emptier interval = 0 minutes. 

14/03/29 18:54:13 INFO fs.TrashPolicyDefault: Deleted trash checkpoint: 
/user/alice/.Trash/140329185237 

14/03/29 18:54:13 INFO fs.TrashPolicyDefault: Created trash checkpoint: 
/user/alice/.Trash/140329185413 


[alice@hadoop01 ~]$ hdfs groups 
alice@CLOUDERA : alice production-etl hadoop-users 


[alice@hadoop01 ~]$ hdfs dfsadmin -refreshNodes 
refreshNodes: Access denied for user alice. Superuser privilege is required 


[alice@hadoop01 ~]$ hdfs dfsadmin -refreshServiceAcl 

refreshServiceAcl: User alice@CLOUDERA (auth:KERBEROS) is not authorized for 
protocol interface 
org.apache.hadoop.security.authorize.RefreshAuthorizationPolicyProtocol, 
expected client Kerberos principal is null 





[aliceQhadoop01 ~]$ hdfs dfsadmin -refreshUserToGroupsMappings 

refreshUserToGroupsMappings: User alice@CLOUDERA (auth:KERBEROS) is not 
authorized for protocol interface 
org.apache.hadoop.security.RefreshUserMappingsProtocol, expected client 
Kerberos principal is null 


[alice@hadoop01 ~]$ hdfs dfsadmin -refreshSuperUserGroupsConfiguration 

refreshSuperUserGroupsConfiguration: User alice@CLOUDERA (auth:KERBEROS) is 
not authorized for protocol interface 
org.apache.hadoop.security.RefreshUserMappingsProtocol, expected client 
Kerberos principal is null 


[aliceQhadoop01 ~]$ yarn rmadmin -refreshQueues 

14/03/29 18:54:21 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

refreshQueues: User alice@CLOUDERA (auth:KERBEROS) is not authorized 
for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[alice@hadoop01 ~]$ yarn rmadmin -refreshNodes 

14/03/29 18:54:22 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

refreshNodes: User alice@CLOUDERA (auth:KERBEROS) is not authorized 
for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[aliceQhadoop01 ~]$ yarn rmadmin -refreshSuperUserGroupsConfiguration 

14/03/29 18:54:24 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

refreshSuperUserGroupsConfiguration: User alice@CLOUDERA (auth:KERBEROS) 
is not authorized for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[aliceQhadoop01 ~]$ yarn rmadmin -refreshUserToGroupsMappings 

14/03/29 18:54:25 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

refreshUserToGroupsMappings: User alice@CLOUDERA (auth:KERBEROS) 
is not authorized for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[aliceQhadoop01 ~]$ yarn rmadmin -refreshAdminAcls 

14/03/29 18:54:26 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

refreshAdminAcls: User alice@CLOUDERA (auth:KERBEROS) 
is not authorized for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[aliceQhadoop01 -]$ yarn rmadmin -refreshServiceAcl 
14/03/29 18:54:28 INFO client.RMProxy: Connecting to ResourceManager at 
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hadoop02/172.25.2.223:8033 

refreshServiceAcl: User aliceQCLOUDERA (auth:KERBEROS) 
is not authorized for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[alice@hadoop01 ~]$ yarn rmadmin -getGroups alice 

14/03/29 18:54:29 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8033 

getGroups: User aliceQCLOUDERA (auth:KERBEROS) 
is not authorized for protocol interface 
org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB, 
expected client Kerberos principal is null 


[alice@hadoop01 ~]$ yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/ 
hadoop-mapreduce-examples.jar randomtextwriter random-text 

14/03/29 18:54:31 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8032 

Running 30 maps. 

Job started: Sat Mar 29 18:54:32 EDT 2014 

14/03/29 18:54:32 INFO client.RMProxy: Connecting to ResourceManager at 
hadoop02/172.25.2.223:8032 

14/03/29 18:54:32 INFO hdfs.DFSClient: Created HDFS DELEGATION TOKEN 
token 9 for alice on 172.25.2.223:8020 

14/03/29 18:54:32 INFO security.TokenCache: Got dt for hdfs://hadoop02:8020; 
Kind: HDFS DELEGATION TOKEN, Service: 172.25.2.223:8020, Ident: 
(HDFS DELEGATION TOKEN token 9 for alice) 

14/03/29 18:54:32 INFO mapreduce.JobSubmitter: number of splits:30 

14/03/29 18:54:32 INFO mapreduce.JobSubmitter: Submitting tokens for job: 
job 1396131817617 0003 

14/03/29 18:54:32 INFO mapreduce.JobSubmitter: Kind: HDFS DELEGATION TOKEN, 
Service: 172.25.2.223:8020, Ident: (HDFS DELEGATION TOKEN token 9 for alice) 

14/03/29 18:54:33 INFO impl.YarnClientImpl: Submitted application 
application 1396131817617 0003 

14/03/29 18:54:33 INFO mapreduce.Job: The url to track the job: 
http://hadoop02:8088/proxy/application 1396131817617 0003/ 

14/03/29 18:54:33 INFO mapreduce.Job: Running job: job 1396131817617 0003 

14/03/29 18:54:40 INFO mapreduce.Job: Job job 1396131817617 0003 
running in uber mode : false 

14/03/29 18:54:40 INFO mapreduce.Job: map 0% reduce 0% 

14/03/29 18:56:20 INFO mapreduce.Job: map 3% reduce 0% 

14/03/29 18:56:53 INFO mapreduce.Job: map 7% reduce 0% 

14/03/29 18:56:57 INFO mapreduce.Job: map 10% reduce 0% 

14/03/29 18:56:59 INFO mapreduce.Job: map 13% reduce 0% 

14/03/29 18:57:02 INFO mapreduce.Job: map 17% reduce 0% 

14/03/29 18:57:15 INFO mapreduce.Job: map 20% reduce 0% 

14/03/29 18:57:36 INFO mapreduce.Job: map 27% reduce 0% 

14/03/29 18:57:44 INFO mapreduce.Job: map 30% reduce 0% 

14/03/29 18:57:59 INFO mapreduce.Job: map 33% reduce 0% 

14/03/29 18:58:09 INFO mapreduce.Job: map 37% reduce 0% 

14/03/29 18:58:19 INFO mapreduce.Job: map 40% reduce 0% 

14/03/29 18:58:23 INFO mapreduce.Job: map 43% reduce 0% 

14/03/29 18:58:25 INFO mapreduce.Job: map 47% reduce 0% 

14/03/29 18:58:35 INFO mapreduce.Job: map 50% reduce 0% 

14/03/29 18:58:36 INFO mapreduce.Job: map 53% reduce 0% 





14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 
14/03/29 

comple 


14/03/29 18: 


18: 
18: 
18: 
18: 
18: 
18: 
18: 
18: 
18: 
18: 
18: 
18: 


ted 


58: 
58: 
58: 
58: 
58: 
58: 
58: 
58: 
59; 
59; 
59: 
59; 


39 
40 
44 
45 
47 
53 
55 
57 
01 
05 
07 
07 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 
mapreduce. 


successfully 


59:07 INFO mapreduce. 


File System Counters 
FILE: 
FILE: 
FILE: 
FILE: 
FILE: 
HDFS: 
HDFS: 
HDFS: 
HDFS: 
HDFS: 
Job Counters 


Launched map 


Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 
Number of 


Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 
Job: 


Job: 


map 
map 
map 
map 
map 
map 
map 
map 
map 
map 
map 


57% reduce 096 
60% reduce 0% 
63% reduce 0% 
67% reduce 0% 
70% reduce 0% 
73% reduce 0% 
80% reduce 0% 
83% reduce 0% 
90% reduce 0% 
93% reduce 0% 
100% reduce 0% 


Job job 1396131817617 0003 


Counters: 29 


bytes read-0 

bytes written-2679890 
read operations=0 

large read operations=0 
write operations=0 

bytes read-4550 

bytes written=33067034387 
read operations-120 

large read operations=0 
write operations-60 


tasks-30 


Other local map tasks-30 
Total time spent by all maps in occupied slots (ms)-5319195 
Total time spent by all reduces in occupied slots (ms)-0 

Map-Reduce Framework 
Map input records=30 


Map output records-49157281 
Input split bytes-4550 


Spilled Records=0 
Failed Shuffles=0 
Merged Map outputs=0 
GC time elapsed (ms)=13711 
CPU time spent (ms)=741910 
Physical memory (bytes) snapshot=10065694720 

Virtual memory (bytes) snapshot=40491339776 

Total committed heap usage (bytes )=14946533376 
org.apache.hadoop.examples.RandomTextWriter$Counters 

BYTES_WRITTEN=32212267432 
RECORDS_WRITTEN=49157281 
File Input Format Counters 
Bytes Read=0 
File Output Format Counters 
Bytes Written=33067034387 
Job ended: Sat Mar 29 18:59:07 EDT 2014 

The job took 275 seconds. 


[aliceQhadoop01 ~]$ hdfs dfs -rm -r random-text 
14/03/29 18:59:09 INFO fs.TrashPolicyDefault: Namenode trash 
configuration: Deletion interval = 1440 minutes, Emptier 
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interval = 0 minutes. 
Moved: 'hdfs://hadoop02:8020/user/alice/random-text' to trash 
at: hdfs://hadoop02:8020/user/alice/.Trash/Current 


[alice@hadoop01 ~]$ hdfs dfs -expunge 

14/03/29 18:59:10 INFO fs.TrashPolicyDefault: Namenode trash 
configuration: Deletion interval = 1 minutes, Emptier 
interval = 0 minutes. 

14/03/29 18:59:11 INFO fs.TrashPolicyDefault: Deleted trash checkpoint: 
/user/alice/.Trash/140329185413 

14/03/29 18:59:11 INFO fs.TrashPolicyDefault: Created trash checkpoint: 
/user/alice/.Trash/140329185911 


这 次 Alice 仍然 能 够 访问 所 有 用 户 功能 ， 但 管理 员 功 能 被 禁止 了 ， 报 错 信息 为 User alice@ 
CLOUDERA (auth:KERBEROS) is not authorized for protocol interface < WN >, ZK 
示 该 用 户 既 不 在 该 协议 的 ACL 表 里 ， 也 不 属于 ACL 表 中 的 某 个 组 。 服 务 级 授权 虽然 复 
杂 ， 却 是 一 种 控制 Hadoop 集群 访问 的 有 力 工 具 。 例 如 ， 在 我 们 所 配 的 策略 控制 下 ，hdfs 
用 户 不 再 具有 查看 或 修改 HDFS 中 文件 的 权限 ， 除 非 它 被 添加 到 hadoop-users 组 。 这 
对 于 需要 由 某 个 管理 动作 追溯 执行 该 动作 的 管理 员 的 公司 来 说 ， 非 常 有 用 。 如 果 将 dfs. 
permissions.superusergroup 设置 为 hadoop-admins， 以 结合 服务 级 授权 ， 就 能 将 管理 动作 
绑 定 到 特定 账号 。 示 例 6-4 展示 了 hdfs 用 户 尝试 列 出 Alice 主 目录 下 的 文件 以 及 删除 她 所 
上 传 的 一 个 文件 时 ， 将 会 如 何 。 


示例 6-4 用 户 hdfs 被 拒绝 访问 ClientProtocol 
























































[hdfsQhadoop01 ~]$ hdfs dfs -ls /user/alice/ 

ls: User hdfs@CLOUDERA (auth:KERBEROS) is not authorized for protocol interface 
org.apache.hadoop.hdfs.protocol.ClientProtocol, expected client Kerberos principal 

is null 

[hdfs@hadoop01 -]$ hdfs dfs -rm /user/alice/file.txt 

rm: User hdfs@CLOUDERA (auth:KERBEROS) is not authorized for protocol interface 
org.apache.hadoop.hdfs.protocol.ClientProtocol, expected client Kerberos principal 

is null 





TER, FAP hdfs 在 协议 层 就 被 拒绝 访问 了 ， 这 发 生 在 HDFS 层 执行 的 权限 检查 之 前 。 虽 
然 从 文件 系统 的 角度 看 ，hdfs 是 超级 用 户 ， 但 根据 此 前 的 服务 级 检查 ， 它 不 能 查看 和 修改 
任何 数据 。 示 例 6-5 展示 了 一 个 hadoop-admins 组 成 员 Joey 尝试 执行 相同 的 动作 时 ， 情 况 
会 如 何 。 


示例 6-5 hadoop-admins 组 的 一 个 成 员 删 除 用 户 文件 











[joeyGhadoop01 -]$ hdfs dfs -ls /user/alice/ 
Found 3 items 


drwx------ - alice alice 0 2014-03-29 21:30 /user/alice/.Trash 
drwx------ - alice alice 0 2014-03-29 21:30 /user/alice/.staging 
-TW------- 3 alice alice 5 2014-03-29 21:48 /user/alice/file.txt 


[joey@hadoop01 ~]$ hdfs dfs -rm /user/alice/file.txt 

14/03/29 21:49:26 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion 
interval = 1440 minutes, Emptier interval = 0 minutes. 

Moved: 'hdfs://hadoop02:8020/user/alice/file.txt' to trash at: 





hdfs://hadoop02:8020/user/joey/.Trash/Current 
[joey@hadoop01 ~]$ hdfs groups joey 
joey : joey hadoop-admins hadoop-users 
[joey@hadoop01 ~]$ hdfs groups hdfs 
hdfs : hdfs hadoop 


你 会 注意 到 ， 这 次 这 些 行为 被 允许 了 。 因 为 Joey 同时 是 hadoop-admins 组 (被 配置 为 
HDFS 中 的 超级 用 户 组 ) 和 hadoop-users 组 (使 用 户 能 够 访问 HDFS 客户 端 协议 ) 的 
成 员 。 

除了 在 hadoop-policy.xml 配置 ACL 之 外 ， 某 些 HDFS 管理 动作 (如 强制 执行 HA 故障 
THEE) 也 只 对 HDFS 集群 管理 员 可 用 。 管 理 员 可 以 使 用 hdfs-site.xml 中 的 dfs.cluster. 
administrators 进行 配置 ， 其 值 为 以 逗号 分 隔 的 、 可 以 管理 HDFS 的 用 户 列表 和 组 列表 ， 

两 个 列表 之 间 用 空格 分 隔 。 开 头 的 空格 表示 空 的 用 户 列表 ， 结 尾 的 空格 表示 空 的 组 列表 。 

特殊 值 * 表示 所 有 用 户 具 有 对 HDFS 的 管理 权限 ， 值 ”"” (不 包含 引号 ) 表示 所 有 用 户 都 
没有 管理 权限 (这 是 默认 设置 ) 。 示 例 6-6 给 出 了 我 们 的 示例 环境 下 推荐 的 配置 。 


示例 6-6  hdfs-site.xml 中 的 dfs.cluster.administrators 配置 


<property> 
<name>dfs.cluster.administrators</name> 
<value>hdfs hadoop-admins</value> 
</property> 
















































































管理 MapReduce Job History Server 的 ACL 不 在 hadoop-policy.xml 文件 里 配置 ， 而 是 要 配 
置 mapred-site.xml 中 的 mapreduce.jobhistory.admin.acl， 其 值 为 逗号 分 隔 的 用 户 列表 和 
组 列表 ， 格 式 与 本 节 开 始 部 分 以 及 表 6-1 中 描述 的 一 致 。 特殊 值 * 表示 允许 所 有 用 户 管理 
JobHistory Server (这 是 默认 配置 )。 示 例 6-7 给 出 了 推荐 的 配置 。 




















示例 6-7 mapred-site.xml 中 的 mapreduce.jobhistory.admin.acl 配置 


<property> 
<name>mapreduce.jobhistory.admin.acl</name> 
<value>mapred hadoop-admins</value> 
</property> 


6.3 MapReduce 和 YARN 的 授权 


MapReduce 和 YARN 都 不 控制 对 数据 的 访问 ， 但 都 提供 了 对 集群 资源 (如 CPU、 内 存 、 
硬盘 VO 和 网 络 VO) 的 访问 。 由 于 这 些 资源 是 有 限 的 ， 因 此 管理 员 通 常 要 为 特定 用 户 或 
组 分 配 资源 ， 尤 其 在 多 用 户 环 境 中 更 是 如 此 。 上 一 节 描 述 的 服务 级 授权 控制 了 对 特定 协议 
的 访问 ， 比 如 谁 可 以 向 集群 提交 作业 而 谁 不 可 以 ， 但 对 于 控制 集群 资源 的 访问 还 不 够 细 
化 。MapReduce (MR1) 和 YARN 都 支持 以 作业 队列 的 方式 限制 如 何 给 作业 分 配 资源 。 为 
了 安全 地 控制 这 些 资源 ，Hadoop 支持 作业 队列 上 的 访问 控制 列表 (ACL)。 这 些 ACL 控 
制 了 哪些 用 户 可 以 提 交 到 特定 队列 ， 以 及 哪些 用 户 可 以 管理 队列 。MapReduce 定义 了 不 同 
类 型 的 用 户 ， 这 影响 ACL 的 解释 方式 。 
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MapReduce/YARN 集群 所 有 者 
启动 JobTracker 进程 (MR1) 或 ResourceManager 进程 (YARN) 的 用 户 被 定义 为 集群 
所 有 者 。 该 用 户 拥 有 提交 作业 到 任意 队列 的 权限 ， 并 能 管理 任意 队列 或 作业 。 大 多 数 情 
况 下 ， 和 集群 所 有 者 在 MapReduce (MR1) 中 即 是 mapred， 在 YARN 中 即 是 yarn。 由 于 
以 集群 所 有 者 的 身份 运行 作业 很 危险 ， 因 此 LinuxTaskController 默认 把 mapred 和 yarn 
用 户 列 入 黑 名 单 ， 使 其 无 法 提交 作业 。 


MapReduce 管理 员 
可 以 通过 设置 以 创建 与 集群 所 有 者 权限 相同 的 全 局 MapReduce 管理 员 。 定 义 特 定 的 用 
户 或 组 为 管理 员 的 好 处 是 ， 可 以 对 每 个 管理 员 各 自 的 动作 进行 审计 。 这 也 能 避免 不 得 不 
将 密码 分 配 到 共享 账号 而 导致 被 破解 机 率 增 大 的 情况 。 

作业 所 有 者 
作业 所 有 者 是 提交 该 作业 的 用 户 。 作 业 所 有 者 总 是 可 以 管理 他 们 自己 的 作业 ， 但 只 有 被 
授予 作业 提交 权限 的 用 户 才能 提交 作业 到 队列 。 

队列 管理 员 
用 户 或 组 可 以 被 授予 对 队列 中 所 有 作业 的 管理 权限 ， 队 列 管理 员 也 可 以 提交 作业 到 他 所 
管理 的 队列 。 



























































6.3.1 MapReduce (MR1) 


对 于 MR1，ACL 是 全 局 管理 的 ， 并 应 用 于 任意 支持 ACL 的 作业 调度 器 。CapacityScheduler 
和 FairScheduler 都 支持 ACL， 但 FIFO (默认 的 ) 调度 器 不 支持 。 配 置 单 队列 ACL 前 ， 需 
要 启用 MapReduce ACL， 配 置 MapReduce 管理 员 ， 以 及 在 mapred-site.xml 中 定义 队列 名 。 


























mapred.acls.enabled 
设 为 true 时 ， 提 交 或 管理 作业 后 会 检查 ACL。 在 JobTracker 接口 中 对 查看 和 修改 作业 
进行 授权 时 ， 也 要 检查 ACL。 

mapreduce.cluster.administrators 
为 MapReduce 集群 配置 管理 员 。 无 论 作 业 或 队列 相关 的 ACL 如 何 配置 ， 集 群 管理 员 总 
可 以 管理 任意 作业 或 队列 。 该 配置 的 格式 是 一 个 有 逗号 分 隔 的 、 可 以 访问 该 协议 的 用 户 列 
表 和 组 列表 。 两 个 列表 之 间 使 用 空格 分 隔 ， 开 头 的 空格 表示 空 的 用 户 列表 ， 结 尾 的 空格 
表示 空 的 组 列表 。 特 殊 值 * 表示 人 允许 所 有 用 户 访问 该 协议 〈 这 是 默认 配置 )。 有 具体 示例 
见 表 6-1。 

mapred.queue.names 
一 系列 以 逗号 分 隔 的 队列 名 。 如 果 要 为 某 个 队列 配置 ACL， 则 该 队列 必须 被 列 在 该 属 
性 里 。MapReduce 通常 支持 至 少 一 个 名 为 default 的 队列 ， 因 此 该 参数 应 当 始终 在 定义 
的 队列 列表 中 包含 default。 
单 队列 ACL 配置 存储 在 mapred-queue-acls.xml 里 。 每 个 队列 有 两 种 ACL 可 以 配置 ， 
分 别 是 提交 ACL 和 管理 ACL, 



























































mapred.queue.<queue_name>.acl-submit- job 
可 以 向 队列 queue, name 提交 作业 的 用 户 的 访问 控制 表 。 提 交 作业 的 ACL Ata Ai 
分 隔 的 、 允 许 向 该 队列 提交 作业 的 用 户 列 表 和 组 列表 ， 其 格式 与 6.2 节 和 表 6-1 中 描述 
的 一 致 。 特 殊 值 * 表示 人 允许 所 有 用 户 访 问 该 协议 (这 是 默认 设置 )。 但 无 论 该 项 如 何 设 
置 ， 集 群 所 有 者 和 MapReduce 管理 员 都 可 以 提交 作业 。 

mapred.queue.«queue name».acl-administer-jobs 
可 以 对 队列 queue. nane 中 的 所 有 作业 进行 查看 详情 、 终 止 或 修改 优先 级 操作 的 用 户 的 
访问 控制 表 。 管 理 作 业 的 ACL 的 格式 为 逗号 分 隔 的 、 允 许 管理 该 队列 中 作业 的 用 户 列 
表 和 组 列表 ， 其 格式 与 6.2 节 和 表 6-1 中 描述 的 一 致 。 特 殊 值 * 表示 人 允许 所 有 用 户 访 问 
该 协议 (这 是 默认 设置 )。 但 无 论 该 项 如 何 设 置 ， 集 群 所 有 者 和 MapReduce 管理 员 都 可 
以 管理 所 有 队列 中 的 所 有 作业 。 作 业 所 有 者 也 可 以 管理 作业 。 


除 单 队列 ACL 外 ， 还 有 两 种 可 以 为 每 个 作业 配置 的 ACL。 这 些 设置 的 默认 值 可 以 放 在 
客户 端 使 用 的 mapred- site.xml 文件 里 ， 这 些 值 也 可 以 被 某 个 作业 重 写 。 
mapreduce. job.acl-view-job 

允许 查看 作业 详情 的 用 户 的 访问 控制 表 。 查 看 作业 的 ACL 的 格式 为 逗号 分 隔 的 、 允 许 
查看 作业 详情 的 用 户 列表 和 组 列表 ， 基 格式 与 6.2 节 和 表 6-1 中 描述 的 一 致 。 特 殊 值 * 
表示 人 允许 所 有 用 户 访问 该 协议 (这 是 默认 设置 )。 但 无 论 该 项 如 何 设置 ， 集 群 所 有 者 、 
MapReduce 管理 员 和 作业 提交 到 的 队列 的 管理 员 都 可 以 查看 作业 。 该 ACL 控制 了 对 作 
业 级 计数 器 、 任 务 级 计数 器 、 任 务 的 诊断 信息 、TaskTracker Web 界面 展示 的 任务 日 志 
以 及 JobTracker Web 界面 展示 的 job.xml 的 访问 。 



























































mapreduce. job.acl-modify- job 

允许 停止 作业 、 结 束 任务 、 放 弃 任 务 、 设 置 作业 优先 级 的 用 户 的 访问 控制 表 。 修 改作 业 
HJ ACL 的 格式 为 逗号 分 隔 的 、 克 许 修改 作业 的 用 户 列表 和 组 列表 ， 甚 格式 与 6.2 节 和 
表 6-1 中 描述 的 一 致 。 特 殊 值 * 表示 人 允许 所 有 用 户 访问 该 协议 〈 这 是 默认 设置 )。 但 无 
论 该 项 如 何 设置 ， 作 业 所 有 者 、 集 群 所 有 者 、MapReduce 管理 员 和 作业 提交 到 的 队列 
的 管理 员 都 可 以 修改 作业 。 
如 果 有 这 么 一 个 部 署 场景 ， 你 想 为 访问 作业 详情 配置 一 个 默认 拒绝 的 策略 ， 那 么 对 于 这 
两 种 配置 而 言 ， 一 个 明智 的 默认 值 就 是 一 个 空格 ”"” (不 包含 引号 ) 。 这 会 禁止 除 作 业 
所 有 者 、 队 列 管理 员 、 集 群 管理 员 和 集群 所 有 者 之 外 的 所 有 用 户 访问 作业 细节 。 












































为 了 控制 对 JobTracker Web 界面 中 作业 详情 的 访问 ， 必 须 如 前 所 述 配置 
MapReduce ACL， 也 需要 按照 第 11 章 描 述 的 方法 启用 Web 界面 的 授权 。 








6.3.2 YARN (MR2) 

YARN/MR2 中 ， 队 列 ACL 不 再 是 全 局 定义 的 ， 每 个 调度 器 都 提供 了 自己 定义 ACL 的 方 
ik. ACL 仍然 是 全 局 启用 的 ， 有 一 个 全 局 的 ACL 定义 YARN 管理 员 。 启 用 YARN ACL 
以 及 定义 管理 员 的 选项 在 yarn-site.xml 里 进行 配置 。 示 例 6-8 提供 了 一 些 配置 示例 。 
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示例 6-8 yarn-site.xml 中 的 YARN ACL 配置 


<property> 
<name>yarn.acl.enable</name> 
<value>true</value> 

</property> 

<property> 
<name>yarn.admin.acl</name> 
«value»yarn hadoop-admins</value> 

</property> 


由 于 每 个 调度 器 的 配置 各 不 相同 ， 我 们 将 逐个 梳理 如 何 设置 队列 ACL。 对 于 这 两 种 例 
子 ， 我 们 会 实现 相同 的 用 例 。 我 们 的 集群 主要 用 于 运行 生产 ETL 流水 线 和 用 于 生成 日 常 
报告 的 生产 查询 ， 也 有 一 些 临时 报告 ， 但 生产 作业 应 优先 处 理 。 为 了 进行 访问 控制 ， 我 
们 额外 定义 了 两 个 用 户 组 ， 这 两 个 组 只 包含 先前 定义 的 hadoop-users 的 一 部 分 。 一 个 是 
production-etl 组 ， 它 包含 了 运行 生产 ETL 作业 的 用 户 ; 另 一 个 是 production-queries 
组 ， 它 包含 了 运行 生产 查询 的 用 户 。 该 例子 中 ，Alice 是 production-etl 组 的 成 员 ，Bob 
是 production-queries 组 的 成 员 。 先 配置 FairScheduler。 


1. FairScheduler 

为 了 保证 生产 作业 所 需 的 资源 ， 首 先 必须 禁用 FairScheduler 的 默认 行为 ， 即 将 每 个 用 户 
放 到 与 其 用 户 名 相 匹 配 的 队列 。 可 以 通过 设置 两 个 参数 yarn. scheduler .fair.user-as- 
default queue 和 yarn.scheduler.fair.allow-undeclared-pools 的 值 为 false 实现 。 第 一 
个 参数 将 默认 的 队列 改 为 default， 第 二 个 参数 确保 用 户 无 法 向 未 预定 义 的 队列 提交 作业 。 
这 些 设置 以 及 开启 FairScheduler 的 设置 项 在 示例 6-9 中 都 能 找到 。 








示例 6-9  yarn-site.xml 中 的 FairScheduler 配置 


<property> 
<name>yarn.resourcemanager .scheduler .class</name> 
<value> 

org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler 

</value> 

</property> 

<property> 
<name>yarn.scheduler.fair.user-as-default -queue</name> 
<value>false</value> 

</property> 

<property> 
<name>yarn. scheduler. fair.allow-undecLared-pools</name> 
<value>false</value> 

</property> 


接 下 来 ， 在 fair-scheduler.xml 文件 中 定义 队列 及 其 ACL,  FairScheduler 使 用 分 级 队列 系 
统 ， 每 个 队列 都 是 root 队列 的 子 队 列 。 示 例 中 ， 我 们 想 将 集群 资源 中 的 90% 分 配给 生产 
作业 ，10% 分 配给 临时 作业 。 为 了 实现 这 点 ， 我 们 定义 了 两 个 root 队列 的 子 队 列 : 生产 作 
业 的 是 prod， 临 时 作业 的 是 default。 之 所 以 将 临时 队列 称 为 default， 是 因为 如 果 没 有 为 
某 个 作业 指定 队列 ， 那 么 该 作业 就 会 被 提交 到 这 里 。 资 源 管理 是 个 复杂 的 话题 ， 我 们 可 以 
调节 各 种 各 样 的 设置 ， 以 井然 有 序 地 控制 资源 。 由 于 我 们 关注 的 是 安全 方面 ， 因 此 将 用 一 
个 简化 的 方式 使 用 队列 权重 控制 资源 。 需 要 了 解 的 是 ， 所 有 队列 具有 相同 的 父 队 列 ， 它 们 
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的 资源 配置 被 定义 为 其 权重 除 以 其 所 有 兄弟 队列 的 权重 。 该 例子 中 ， 我 们 可 以 为 prod 分 配 
权重 9.0， 为 default 分 配 权 重 1.0， 这 样 就 能 得 到 OO : 10 的 划分 比例 。 


我 们 还 想 将 生产 队列 分 成 两 个 子 队 列 : 一 个 用 于 ETL 作业 ， 一 个 用 于 请 求 。 本 例 中 ， 我 们 
将 把 两 个 队列 的 权重 都 设 为 1.0， 因 此 两 个 队列 的 权重 是 一 样 的 。 值 得 注意 的 是 ， 份 额 的 
计算 发 生 在 父 队 列 上 下 文中 。 本 例 中 ， 意 思 就 是 由 于 我 们 将 etl 和 queries 的 队列 都 设 成 
prod 队列 50% 的 资源 ， 最 终 它们 获得 的 资源 是 全 局 等 额 分 量 ， 每 个 队列 是 45% (5096 x 
90% = 45%) 


资源 是 继承 的 ，ACL 也 是 。 使 用 FairScheduler 后 ， 能 提交 作业 到 某 个 队列 的 用 户 也 能 
提交 作业 到 其 子 队 列 ， 这 也 同样 适用 于 队列 的 管理 权限 。 和 前 面 的 例子 一 样 ， 我 们 想 
使 hadoop- admins 组 的 任意 成 员 都 能 管理 任意 作业 /队列 ， 就 要 将 他 们 加 到 根 队 列 的 
aclAdministerApps ACL 中 。 值 得 注意 的 是 ， 必 须 将 aclsubmitApps ACL igh" " (不 含 引 
号 )， 否 则 ， 由 于 没有 定义 的 默认 ACL 允许 所 有 ， 因 此 会 导致 所 有 用 户 都 能 提交 作业 到 任 
意 队 列 。 对 于 默认 队列 ， 我 们 想 要 允许 hadoop-users 组 的 任意 成 员 都 能 提交 作业 ， 因 此 要 
将 aclSubmitApps 设 成 ”hadoop-users”( 不 含 引 号 ， 并 注意 开头 有 空格 )。 对 于 prod.etl 和 
prod.queries 队列 ， 则 要 将 aclSubmitApps 分 别 设 为 " production-etl" 和" production- 
queries" (不 含 引 号 )， 这 些 都 是 我 们 之 前 定义 的 组 。 完 整 的 FairScheduler 配置 如 示例 6-10 
所 示 。 


示例 6-10  fair-scheduler.xml 


<?xml versionz"1.0" encoding="UTF-8" standalone="yes"?> 
«allocations» 
«queue name="root"> 
<weight>1.0</weight> 
«aclSubmitApps» </aclSubmitApps> 
<aclAdministerApps> hadoop-admins</aclAdministerApps> 
<queue name="prod"> 
<weight>9.0</weight> 
«aclSubmitApps» </aclSubmitApps> 
<aclAdministerApps> </aclAdministerApps> 
«queue name="etLl"> 
<weight>1.0</weight> 
«aclSubmitApps» production-etl</aclSubmitApps> 
<aclAdministerApps>alice </aclAdministerApps> 
</queue> 
«queue name="queries"> 
<weight>1.0</weight> 
«aclSubmitApps» production-queries</aclSubmitApps> 
<aclAdministerApps>bob </aclAdministerApps> 
</queue> 
</queue> 
«queue name="defauLlt"> 
<weight>1.0</weight> 
«aclSubmitApps» hadoop-users«/aclSubmitApps» 
<aclAdministerApps> </aclAdministerApps> 
</queue> 
</queue> 
</allocations> 
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现在 看 看 Bob 在 没有 预先 定义 队列 ACL 的 情况 下 ， 尝 试 终止 一 个 Alice 的 作业 会 发 生 什 
么 。 首 先 ，Bob 得 到 运行 着 的 作业 列表 ， 并 找到 Alice 作业 的 JobId， 然 后 发 送 终止 作业 
的 请 求 。 由 于 缺乏 对 谁 能 管理 作业 而 谁 不 能 管理 作业 的 控制 ，YARN 会 很 乐意 满足 他 的 请 
求 。 示 例 6-11 给 出 了 Bob 的 完整 用 户 会 话 。 


示例 6-11 未 定义 ACL 的 情况 下 终止 其 他 用 户 的 作业 


[bob@hadoop01 ~]$ mapred job -list 
Total jobs:1 
































T 














JobId State StartTime UserName 
job 1396200012809 0002 RUNNING 1396201153018 alice 
[bob@hadoop01 ~]$ mapred job -kill job 1396200012809 0002 
Killed job job 1396200012809 0002 


这 并 不 理想 ， 因 为 用 户 可 以 干扰 其 他 用 户 的 生产 作业 。 更 重要 的 是 ， 一 个 简单 的 复制 / 粘 
贴 错 误 就 有 可 能 导致 一 个 用 户 不 小 心 终止 另外 一 个 用 户 的 作业 。 如 果 我 们 在 FairScheduler 
中 配置 了 ACL 之 后 再 执行 相同 的 操作 ， 就 会 得 到 示例 6-12 所 示 的 结果 。 


示例 6-12 Bob 被 队列 ACL 拒绝 给 予 管理 权限 


[bob@hadoop01 ~]$ mapred job -list 
Total jobs:1 









































JobId State StartTime UserName 
job 1396192703139 0001 RUNNING 1396192707596 alice 
[bob@hadoop01 ~]$ mapred job -kill job 1396192703139 0001 


Exception in thread "main" java.io.IOException: org.apache.hadoop.yarn.exceptions.Yar 
nException: java.security.AccessControlException: User bob cannot perform operation M 
ODIFY APP on application 1396192703139 0001 

at org.apache.hadoop.yarn.ipc.RPCUtil.getRemoteException(RPCUtil.java:38) 


[bob@hadoop01 ~]$ 


很 多 时 候 ， 一 些 管理 员 必 须要 能 终止 另外 一 个 用 户 的 作业 ， 因 此 我 们 在 根 队列 上 将 管理 权 
限 设置 到 hadoop-admins 组 。 因 此 ， 如 果 其 中 一 个 管理 员 Joey 尝试 终止 一 个 作业 ， 系 统 将 
进行 以 下 处 理 ， 如 示例 6-13 所 示 。 


示例 6-13 成 功 终止 一 个 MapReduce 作业 


[joeyGhadoop01 ~]$ mapred job -list 
Total jobs:1 












































JobId State StartTime UserName 
job 1396192703139 0002 RUNNING 1396193202565 alice 
[joeyGhadoop01 ~]$ mapred job -kill job 1396192703139 0002 
Killed job job 1396192703139 0002 


控制 管理 权限 显然 是 有 用 的 ， 但 防止 用 户 提交 作业 到 错误 队列 也 很 重要 。 我 们 的 例子 中 ， 
由 于 Alice 是 production-etl 组 的 成 员 ， 因 此 她 具有 提交 作业 到 prod.ett 队列 的 权限 。 但 
她 不 是 production-queries 组 的 成 员 ， 因 此 如 果 尝 试 提交 作业 到 该 处 ， 则 会 被 拒绝 ， 如 示 
例 6-14 所 示 。 














示例 6-14 Alice 被 拒绝 向 prod.queries 队列 提交 作业 


[aliceQhadoop01 ~]$ yarn jar V 
/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar V 
randomtextwriter -Dmapreduce.job.queuename-prod.queries random-text 


Job started: Sun Mar 30 13:20:57 EDT 2014 

14/03/30 13:20:59 ERROR security.UserGroupInformation: PriviledgedActionException 
as:aliceQCLOUDERA (auth:KERBEROS) cause:java.io.IOException: Failed to run job : 
User alice cannot submit applications to queue root.prod.queries 


2. CapacityScheduler 

CapacityScheduler 与 FairScheduler 一 样 支持 分 级 队列 ， 也 支持 与 FairScheduler 一 样 的 单 
队列 ACL 和 ACL 继承 策略 。 实 际 上 ， 从 安全 角度 看 ， 这 两 个 调度 器 是 相同 的 ， 唯 一 的 区 
别 在 于 配置 文件 的 格式 。 为 了 实现 与 前 所 述 相 同 的 策略 ， 需 要 先 在 yarn-site.xml 中 局 用 
CapacityScheduler， 如 示例 6-15 所 示 。 








mr 





示例 6-15  yarn-site.xml 中 的 CapacityScheduler 配置 


<property> 
<name> 
yarn. resourcemanager .scheduler.class 
</name> 
«value» 


org.apache.hadoop.yarn.server.resourcemanager .scheduler.capacity.CapacityScheduler 
</value> 
</property> 


一 旦 启用 ，CapacityScheduler 就 会 从 capacity-scheduler.xml 文件 读 取 配置 。 示 例 6-16 展 
示 了 实现 同一 队列 和 ACL 的 配置 。 对 于 FairScheduler, ACL 被 配置 为 队列 定义 的 一 个 子 
元 素 ， 用 aclsubmitApps 标签 控制 谁 可 以 提交 应 用 到 队列 ， 用 aclAdministerApps 标签 控制 
谁 可 以 管理 队列 中 的 作业 。 对 于 CapacityScheduler 来 说， 对 应 的 设置 分 别 是 如 下 所 示 的 属 
性 (将 <path-to-queue > 替换 为 队列 的 层次 结构 ) 。 


。 yarn.scheduler.capacity.root.< path-to-queue >.acl_submit_applications 




















e yarn.scheduler.capacity.root.< path-to-queue ».acl administer applications 


例如 ， 定 义 prod.etl 队列 的 ACL 是 yarn.scheduler.capacity.root.prod.etl.acl submit 
applications， 如 示例 6-16 所 示 。 


示例 6-16 capacity-scheduler.xml 


<!-- Define ACLs and subqueues for the root queue --> 

<property> 
<name>yarn. scheduler .capacity.root.acl_submit_applications</name> 
<value> </value> 

</property> 

<property> 
<name>yarn.scheduler.capacity.root.acl_administer_applications</name> 





授权 | 91 


«value» hadoop-admins</value> 

</property> 

<property> 
<name>yarn. scheduler .capacity.root.queues</name> 
«value»prod,default«/value» 

</property> 


<!-- Define capacity and ACLs for the root.default queue --> 

<property> 
<name>yarn.scheduler.capacity.root.default.capacity</name> 
<value>10.0</value> 

</property> 

<property> 
<name>yarn.scheduler.capacity.root.acl_submit_applications</name> 
«value» hadoop-users</value> 

</property> 


<!-- Define capacity, ACLs, and subqueues for the root.prod queue --> 

<property> 
<name>yarn.scheduler.capacity.root.prod.capacity</name> 
<value>90.0</value> 

</property> 

<property> 
<name>yarn.scheduler.capacity.root.prod.queues</name> 
<value>etl, queries</value> 

</property> 

<property> 
<name>yarn.scheduler.capacity.root.prod.acl_submit_applications</name> 
<value> </value> 

</property> 

<property> 
<name>yarn.scheduler.capacity.root.prod.acl_administer_applications</name> 
<value> </value> 

</property> 


<!-- Define capacity and ACLs for the root.prod.etl queue --> 

<property> 
<name>yarn.scheduler.capacity.root.prod.etl.capacity</name> 
<vaLlue>50.0</value> 

</property> 

<property> 
<name>yarn.scheduler.capacity.root.prod.etl.acl_submit_applications</name> 
«value» production-etl</value> 

</property> 

<property> 


<name>yarn.scheduler.capacity.root.prod.etl.acl_administer_applications</name> 


<value>alice </value> 
</property> 


<!-- Define capacity and ACLs for the root.prod.queries queue --> 

<property> 
<name>yarn.scheduler.capacity.root.prod.queries.capacity</name> 
<value>50.0</value> 

</property> 

<property> 





«name»yarn.scheduler.capacity.root.prod.queries.acl submit applications«/name» 
«value» production-queries</value> 

</property> 

<property> 
«name»yarn.scheduler.capacity.root.prod.queries.acl administer applications«/name» 
«value»bob </value> 

</property> 


6.4 ZooKeeper ACLs 


Apache ZooKeeper 使 用 ACL 控制 对 ZNode (路 径 ) 的 访问 。ZooKeeper 的 ACL 与 POSIX 
权限 位 类 似 ， 但 更 加 灵活 ， 因 为 其 权限 设置 在 单 用 户 上 ， 而 不 是 所 有 者 和 主要 组 上 。 实 际 
上 ，ZooKeeper 里 没有 所 有 者 或 组 的 概念 。5.2.2 节 讲 过 ， 用 户 由 一 个 身份 验证 模式 和 模式 
对 应 的 ID 确定 ，ID 的 格式 根据 模式 的 不 同 而 不 同 。 


每 个 ACL 包含 一 个 模式 、ID 和 权限 。 可 用 的 权限 列表 见 表 6-5。 值 得 注意 的 是 ，ZooKeeper 
中 ， 权 限 是 非 递 归 的 ， 只 作用 于 所 属 的 ZNode， 不 作用 于 其 子 节点 。 由 于 ZooKeeper 中 没 
有 ZNode 所 有 者 的 概念 ， 因 此 用 户 需 要 有 ZNode 的 ADMIN 权限 才能 设置 ACL. 


表 6-5: ZooKeeper ACL 权 限 















































权限 描述 
CREATE 创建 子 Znode 的 权限 
READ 读 取 ZNode 数据 以 及 列 出 ZNode 子 节点 的 权限 





WRITE 设置 ZNode 数据 的 权限 
DELETE 删除 子 Znode 的 权限 
ADMIN 设置 ACL 的 权限 


CREATE 和 DELETE 权限 用 于 控制 谁 可 以 创建 ZNode 的 子 节 点 。 授 予 CREATE 权限 但 不 授予 
DELETE 权限 的 使 用 情况 是 : 你 希望 用 户 可 以 在 某 个 路 径 创建 子 节点 ， 但 该 路 径 下 只 有 管理 
员 才 能 删除 子 节点 。 


如 果 使 用 JAVA API 添加 ACL， 首 先 要 使 用 模式 项 和 ID 号 创建 一 个 ID 对 象 ， 然 后 使 用 该 
ID 以 及 整 型 的 权限 创建 一 个 ACL 对 象 。 你 可 以 手动 计算 权限 的 整 型 值 ， 或 者 使 用 ZooDefs. 
Perms 类 中 的 常量 得 出 想 要 设置 的 权限 组 合 而 成 的 整 型 值 。 如 示例 6-17 所 示 ， 使 用 Java 代 
码 在 某 个 路 径 上 设置 ACL. 



































示例 6-17 使 用 JAVA API 设置 ZooKeeper ACL 


// 连接 到 ZooKeeper 
ZooKeeper zk = new ZooKeeper("zk.example.com:2181", 60000, watcher); 


// 使 用 密码 secret 为 alice 创 建 Id 


Id id = new Id("digest", "alice:secret"); 


// 创建 授予 Alice READ 和 CREATE 权 限 的 ACL 
ACL acl = new ACL(ZooDefs.Perms.READ | ZooDefs.Perms.CREATE, id); 


zk.setAcl("/test", Arrays.asList(new ACL[] {acl}), -1); 
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x 2.2 节 已 经 描述 过 digest 模式 ， 但 ZooKeeper 还 支持 一 系列 其 他 内 置 模式 。 表 6-6 描 
述 了 可 用 模式 ， 以 及 ACL 中 使 用 的 ID 的 格式 。 对 于 world 模式 ， 唯 一 的 ID 就 是 字符 
HA anyone, digest 模式 使 用 < 用 户 名 >:< 密 码 > 的 shal 值 的 base64 编码 。ip 模式 人 
许 通 过 某 个 全 地址 或 CIDR 标记 的 某 段 卫 地 址 设置 ACL。 最 后 ，sast 模式 使 用 < 主 
体 > 作 为 ID， 默 认 情 况 下 ， 该 主体 即 是 用 户 的 完整 UPN。 可 以 通过 设置 kerberos. 
removeRealmFromPrincipal 和 /或 kerberos.removeHostFromPrincipal 控制 主体 名 规范 ， 这 


两 项 分 别 表 示 在 比较 ID 之 前 移 除 域 和 移 除 第 二 部 分 
表 6-6: ZooKeeper 模 式 



































模式 描述 ACLID 格式 
world 代表 任意 用 户 anyone 
digest ”代表 使 用 密码 认证 的 用 户 < 用 户 名 >:base64(shalsum(< 用 户 名 >:< 密码 >)) 
ip 使 用 客户 端 IP 作为 身份 标识 «ip»[/«cidr»] 
sasl 代表 使 用 SASL 认证 的 用 户 〈 例 如 Kerberos < 主体 > 
用 户 ) 





6.5 Oozie 授 权 


Apache Oozie 的 授权 模型 很 简单 ， 只 有 两 个 级 别 的 账户 : AP (user) 和 管理 员 用 户 
(admin user) 。 用 户 具 有 如 下 权限 : 


。 所 有 作业 的 读 权限 
。 自身 作业 的 写 权限 
。 对 作业 的 基于 单 作 业 访问 控制 列表 (用 户 和 组 列表 ) 的 写 权限 
。 管理 操作 的 读 权 限 


管理 员 用 户 具有 如 下 权限 : 


。 所 有 作业 的 写 权限 
。 管理 操作 的 写 权限 


可 以 设置 oozie- site.xml 文件 中 的 如 下 参数 ， 以 启用 Oozie 授权 : 


<property> 
<name>oozie.service.AuthorizationService. security. enabled</name> 
<value>true</value> 

</property> 

<property> 
«name»oozie.service.AuthorizationService.admin.groups«/name» 
«value»oozie-admins«/value» 

</property> 








m. 























如 果 没 有 设置 oozie.service.AuthorizationService.admin.groups 参数 ， 可 以 在 adminusers. 
txt 文件 中 指定 管理 员 用 户 列表 ， 每 行 一 个 : 


oozie 
alice 
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除了 所 有 者 和 管理 员 用 户 拥有 对 作业 的 写 权 限 ， 也 可 以 使 用 针对 作业 的 访问 控制 列表 授 
予 用 户 写 权限 。Oozie ACL 使 用 的 语法 与 Hadoop ACL 的 一 样 ( 见 表 6-1) ， 提 交 作 业 时 ， 
通过 工作 流 、 协 调 器 (coordinator) 或 job.properties 包 文 件 的 oozie.job.acl 属性 进 
行 设 置 。 


6.6 HBase 和 Accumulo 的 授权 


Apache HBase 和 Apache Accumulo 是 基于 Google 的 BigTable 设计 的 ， 建 立 在 HDFS 和 
ZooKeeper 之 上 的 排序 的 、 分 布 式 的 键 / 值 存储 。 这 两 个 系统 有 着 类 似 的 数据 模型 ， 也 都 
是 为 在 HDFS 上 实现 随机 化 访问 和 更 新 负载 而 设计 的 。 数 据 存储 在 行 里 ， 每 行 包含 一 个 或 
多 个 列 。 和 关系 型 数据 库 不 同 的 是 ， 每 行 包 含 的 列 可 以 是 不 同 的 。 这 方便 在 数据 记录 的 模 
式 不 尽 相 同时 ， 实 现 复杂 的 数据 模型 。 每 行 都 通过 名 为 行 刘 或 行 键 的 主键 进行 检索 ， 每 一 
行 中 ， 每 个 值 又 进一步 通过 列 键 和 时 间 稚 进行 检索 。 行 键 、 列 键 、 时 间 惟 以 及 它们 所 指向 
的 数据 合 在 一 起 称 为 单元 (cell), HBase 和 Accumulo 内 部 将 数据 作为 排序 的 键 值 对 进行 
存储 ， 其 中 键 由 行 ID、 列 键 和 时 间 惟 组成。 列 键 又 分 为 两 部 分 : 列 家 族 (column family) 
和 列 限 定 符 (column qualifier), HBase 中 ， 同 一 个 列 家 族 的 所 有 列 被 存储 在 单独 的 磁盘 
文件 中 。 而 Accumulo 中 ， 不 同 的 列 家 族 可 以 被 合并 到 本 地 组 (locality group) 。 


一 系列 排序 的 行 称 为 “ 表 "。HBase 中 ， 列 家 族 的 集合 是 要 预先 为 每 个 表 定义 好 的 。 而 
Accumulo 允许 用 户 动态 创建 新 的 列 家 族 。 两 个 系统 中 ， 列 限定 符 都 不 需要 预先 定义 ， 任 
意 限定 符 都 可 以 被 插入 任意 行 。 表 的 逻辑 组 (类似 于 数据 库 或 者 关系 型 数据 库 系 统 中 的 模 
X) 称 为 “命名 空间 ”。HBase 和 Accumulo 都 支持 系统 、 命 名 空间 和 表 级 别 的 权限 ， 可 用 
的 权限 及 其 含义 各 不 相同 ， 下 面 先 看 一 下 Accumulo 的 权限 模型 。 


6.6.1 系统 、 命 名 空间 和 表 级 授权 


Accumulo 最 高 支持 系统 级 权限 。 通 常 来 说 ， 系 统 权限 是 为 Accumulo root 用 户 或 Accumulo 
管理 员 预 留 的 。 高 级 别 设 置 的 权限 会 被 低级 别 的 对 象 所 继承 。 例 如 ， 如 果 有 具有 系统 权限 
CREATE_TABLE， 则 可 以 在 任何 命名 空间 创建 表 ， 即 使 没有 显 式 地 具有 在 该 命名 空间 创建 表 
的 权限 。 表 6-7 给 出 了 一 系列 系统 级 权限 和 描述 ， 以 及 对 应 的 命名 空间 级 权限 。 


你 将 在 本 节 看 到 多 处 提 及 Accumulo root 用 户 ， 这 与 root 系统 账户 是 两 码 事 。 
Accumulo root 用 户 是 在 Accumulo 初始 化 时 自动 创建 的 ， 该 用 户 被 授予 所 有 
系统 级 权限 。root 用 户 不 可 能 取消 这 些 权 限 ， 以 防 无 人 能 管理 Accumulo, 


































































































表 6-7: Accumulo 中 的 系统 级 权限 
































权限 描述 对 应 的 命名 空间 权限 

System.GRANT 向 其 他 用 户 授予 权限 的 权限 ， 为 Accumulo Namespace.ALTER NAMESPACE 
root 用 户 预 留 

System.CREATE_TABLE 创建 表 的 权限 Namespace.CREATE TABLE 

System.DROP TABLE | 除 表 的 权限 Namespace.DROP_TABLE 
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权限 描述 对 应 的 命名 空间 权限 
System.ALTER_TABLE 你 改 表 的 权限 Namespace.ALTER_TABLE 
System.DROP_NAMESPACE HERM s zs He AS Namespace . DROP_NAMESPACE 
System. ALTER_NAMESPACE 多 改 命名 空间 的 权限 Namespace.ALTER NAMESPACE 
System.CREATE USER 创建 新 用 户 的 权限 N/A 

System.DROP_USER BER FE P EAS BB N/A 

System.ALTER USER 你 改 用 户 密码 、 权 限 和 授权 的 权限 N/A 

System. SYSTEM 对 表 或 用 户 执行 管理 操作 的 权限 N/A 

System. CREATE_NAMESPACE 创建 新 命名 空间 的 权限 N/A 



































命名 空间 是 表 的 逻辑 集合 ， 有 助 于 管理 表 以 及 将 管理 功能 委托 给 较 小 的 用 户 组 。 假 设 市 场 
部 门 需要 一 系列 Accumulo 表 以 支撑 其 一 些 应 用 ， 为 了 减轻 Accumulo 管理 员 的 负担 ， 可 


以 创建 一 个 marketing 

















命名 空间 ， 然 后 将 GRANT, CREATE_TABLE, DROP_TABLE 和 ALTER_TABLE 





权限 授予 marketing 中 的 一 个 管理 员 。 这 会 允许 该 部 门 无 需 系 统 级 权限 或 等 待 Accumulo ££ 














irs! 








里 员 操作 ， 即 可 创建 和 管理 它 自 己 的 表 。 很 多 命名 空间 级 权限 会 被 命名 空间 中 的 表 继 承 ， 


表 6-8 给 出 了 一 系列 命名 空间 级 权限 和 描述 ， 以 及 对 应 的 表 级 权限 。 
表 6-8: Accumulo 中 的 命名 空间 级 权限 


























权限 描述 对 应 的 表 级 空间 
Namespace.READ 读 (scan) 命名 空间 中 的 表 的 权限 Table. READ 
Namespace.WRITE 5 (put/delete) 命名 空间 中 的 表 的 权限 Table.WRITE 
Namespace. GRANT 向 命名 空间 中 的 表 授 予 权限 的 权限 Table. GRANT 
Namespace. BULK_IMPORT 向 命名 空间 中 的 表 批 量 导 入 数据 的 权限 Table.BULK_IMPORT 
Namespace. ALTER_TABLE 对 命名 空间 中 的 表 设 置 属性 的 权限 Table.ALTER_TABLE 
Namespace. DROP_TABLE 删除 命名 空间 中 的 表 的 权限 Table.DROP_TABLE 
Namespace. CREATE_TABLE 在 命名 空间 中 创建 表 的 权限 N/A 
Namespace.ALTER_NAMESPACE 设置 命名 空间 属性 的 权限 N/A 

Namespace. DROP_NAMESPACE 删除 命名 空间 的 权限 N/A 








表 级 权限 用 于 控制 对 单个 表 的 粗 粒度 访问 。 表 6-9 给 出 了 一 系列 表 级 权限 及 其 描述 。 
表 6-9: Accumulo 中 的 表 级 权限 


权限 

Table.READ 
Table.WRITE 
Table.BULK_IMPORT 
Table.ALTER_TABLE 
Table. GRANT 





Table.DROP TABLE 


描述 

读 取 (scan) 表 的 权限 

写 (put/delete) 表 的 权限 
向 表 中 批量 导入 数据 的 权限 
设置 表 的 属性 的 权限 
授予 表 权 限 的 权限 
删除 表 的 权限 








可 以 用 Accumulo 命令 行 管理 系统 、 命 名 空间 和 表 级 权限 。 特 别 地 ， 使 用 grant 命令 可 以 
授予 权限 ， 使 用 revoke 命令 可 以 撤销 权限 。 示 例 6-18 使 用 Accumulo 命令 行 管理 权限 。 


示例 6-18 ”使 用 Accumulo 命令 行 管理 权限 


root@cloudcat> userpermissions -u alice 
System permissions: 





Namespace permissions (accumulo): Namespace.READ 


Table permissions (accumulo.metadata): Table.READ 

Table permissions (accumulo.root): Table.READ 

root@cloudcat> user alice 

Enter password for user alice: ***** 

alice@cloudcat> table super_secret_squirrel 

alice@cloudcat super_secret_squirrel> scan 

2014-03-31 16:11:06,828 [shell.Shell] ERROR: java.lang.RuntimeException: 
org.apache.accumulo.core.client.AccumuloSecurityException: Error PERMISSION DENIED 
for user alice on table super secret squirrel(ID:a) - User does not have permission 
to perform this action 

alice@cloudcat super secret squirrel» user root 

Enter password for user root: ****** 

root@cloudcat super secret squirrel» grant Namespace.READ -ns "" -u alice 

root@cloudcat super secret squirrel» user alice 

Enter password for user alice: ***** 

alice@cloudcat super secret squirrel» scan 

r f:c [] value 

alice@cloudcat super secret squirrel» 


HBase 在 系统 、 命 名 空间 和 表 级 使 用 相同 的 ACL BUR AE (K 6-10)。 高 级 别 设置 的 权限 会 
被 低级 别 的 对 象 继承 。 例 如 ， 如 果 授 予 一 个 用 户 系统 级 READ 权限 ， 则 该 用 户 可 以 读 取 集 
群 的 所 有 表 。 除 了 向 单个 用 户 授予 权限 之 外 ，HBase 还 支持 向 用 户 组 授予 权限 。 使 用 grant 
命令 时 ， 在 组 名 前 加 上 前 级 @， 以 分 配 组 权限 。HBase 使 用 与 Hadoop 中 相同 的 用 户 到 组 的 
映射 类 ， 组 映射 默认 情况 下 会 加 载 HBase Master 上 的 Linux 组 ， 也 支持 LDAP 组 或 自 定义 
映射 。 


表 6-10: HBase 中 的 权限 

















权限 描述 

READ(R) 读 (scan) 权限 

WRITE(W) Æ (put/delete) 权限 

EXEC(X) 执行 协 处 理 器 终端 的 权限 

CREATE(C) 出 除 表 、 修 改 表 属性 以 及 添加 、 修 改 、 删 除 列 家 族 的 权限 

ADMIN(A) 启用 和 禁用 表 、 触 发 区 域 重 分 配 和 迁移 的 权限 以 及 通过 CREATE 授予 的 权限 





示例 6-19 描述 了 使 用 系统 级 权限 授予 对 所 有 表 的 读 权 限 。 首 先 Alice 打开 HBase 命令 行 ， 
获取 表 的 列表 ， 然 后 尝试 读 取 super secret squirrel X, 
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示例 6-19 Alice 被 拒绝 访问 一 个 HBase 表 


[alice@cdh5-hbase ~]$ hbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.0, rUnknown, Fri Feb 7 12:26:17 PST 2014 


hbase(main):001:0» list 

TABLE 

super secret squirrel 

1 row(s) in 2.2110 seconds 

hbase(main):002:0> scan 'super secret squirrel' 

ROW COLUMN+CELL 


ERROR: org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient 
permissions for user 'alice' for scanner open on table super secret squirrel 


hbase(main):003:0» user permission 
User Table,Family,Qualifier:Permission 
0 row(s) in 0.7350 seconds 


要 注意 的 是 ，Alice 执行 user permission 命令 时 ， 她 看 不 到 任何 人 。Alice 要 求 HBase 管 


理 员 授予 其 访问 HBase 中 所 有 表 的 权限 ， 管 理 员 以 hbase 用 户 的 身份 登录 到 HBase 命令 
行 ， 然 后 使 用 grant 命令 授予 Alice 系统 级 的 READ 权限 。 























示例 6-20 HBase 管理 员 授予 Alice 系统 级 READ 权限 


[hbase@cdh5-hbase ~]$ hbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 

Type "exit<RETURN>" to leave the HBase Shell 

Version 0.96.1.1-cdh5.0.0-beta-2, rUnknown, Fri Feb 7 12:26:17 PST 2014 





hbase(main):001:0> grant 'alice', 'R' 
0 row(s) in 2.6990 seconds 


hbase(main):002:0> user permission 'super secret squirrel' 

User Table,Family,Qualifier:Permission 
hbase super secret squirrel,,:[Permission: 
actions=READ ,WRITE, EXEC, CREATE, ADMIN] 

1 row(s) in 0.2140 seconds 


注意 ， 由 于 Alice 被 授予 的 是 系统 级 的 权限 ， 所 以 她 仍然 没有 针对 super secret squirrel 
表 的 权限 。 系 统 级 的 权限 作为 应 用 到 hbase:acl 表 的 内 容 ， 被 展示 在 命令 行 里 ， 如 示例 
6-21 所 示 。 现 在 ， 当 Alice 执行 scan 动作 ， 她 就 会 得 到 表 的 行 信息 。 


示例 6-21 Alice 现在 可 以 扫描 任意 HBase 表 


hbase(main):004:0> user permission 

User Table,Family,Qualifier:Permission 
alice hbase:acl,,: [Permission: actions-READ] 
1 row(s) in 0.1540 seconds 








hbase(main):005:0> scan 'super secret squirrel' 
ROW COLUMN+CELL 





r column=f:q, timestamp=1396369612376, 
value-value 
1 row(s) in 0.1310 seconds 


6.6.2” 列 级 别 和 单元 级 别 授权 

HBase 和 Accumulo 也 支持 数据 级 别 的 细 粒 度 授权 。HBase 中 ， 可 以 在 列 级 别 指定 权限 。 
只 有 READ 和 WRITE 权限 可 以 应 用 到 列 级 别 ACL。 由 于 HBase 支持 分 配 权限 到 用 户 组 ， 
此 这 是 一 种 基于 角色 的 访问 控制 (角色 被 一 一 映射 到 组 )。HBase 模型 与 Sentry 类 似 ， 也 
使 用 RBAC， 权 限 被 存储 在 元 数据 层 ， 而 且 在 用 户 尝试 访问 表 或 列 时 得 到 应 用 。Accumulo 
没有 使 用 RBAC 方式 ， 而 使 用 一 种 基于 属性 的 安全 。 基 于 属性 的 安全 使 用 标签 对 数据 进行 
标记 ， 并 通过 比较 标签 与 用 户 的 授权 决定 该 用 户 是 否 具 有 读 取 数据 值 的 权限 。 


Accumulo 中 ， 安 全 标签 存储 在 单元 级 ， 每 个 键 值 对 都 具有 自己 的 标签 。Accumulo 向 
BigTable 的 数据 模型 增加 一 个 位 于 列 限定 符 和 时 间 惟 中间 的 visibility 元 素 ， 从 而 将 安全 
标签 作为 键 的 一 部 分 进行 存储 。 和 Accumulo 中 键 的 所 有 元 素 一 样 ， 安 全 标签 不 需要 预先 
定义 ， 可 以 在 数据 被 插入 时 动态 创建 。 为 了 支持 更 复杂 的 权限 组 合 ， 安 全 标签 包含 一 组 使 
用 布尔 操作 符 | 和 文 组 合 起 来 的 自 定义 令 牌 ， 也 可 以 使 用 括号 制定 布尔 操作 符 的 优先 级 。 
除了 和 数据 一 起 存储 的 标签 之 外 ， 每 个 Accumulo 用 户 还 有 一 组 安全 标签 。 这 些 标签 扫描 
数据 时 会 与 布尔 表达 式 进行 比较 ， 然 后 过 滤 用 户 没 有 授权 查看 的 单元 。 由 于 标签 存储 在 单 
元 级 并 且 组 成 了 键 的 一 部 分 ， 所 以 实现 多 级 安全 很 简单 : 同一 行 和 列 键 可 以 指向 不 同 授权 
级 别 的 数据 。 这 对 于 收集 多 个 部 分 组 成 的 相关 数据 (数据 记录 的 一 部 分 对 所 有 用 户 公开 ， 
但 更 多 的 敏感 部 分 是 受 限 的 ) 的 公司 来 说 ， 是 个 很 强大 的 功能 。 


6.7 ”小结 


本 章 介 绍 了 允许 或 拒绝 访问 集群 中 数据 或 服务 的 授权 机 制 。 设 置 权限 和 ACL 以 控制 对 数 
据 和 资源 的 访问 ， 是 Hadoop 管理 的 基础 。 我 们 看 到 不 同 组 件 的 授权 控制 有 所 不 同 ， 尤 
其 看 到 了 授权 访问 数据 的 组 件 (HDFS, HBase, Accumulo) 和 授权 访问 计算 和 资源 的 组 
件 (MapReduce、YARN) 之 间 的 区 别 。 


至 此 ， 我 们 在 单 组 件 基 础 上 实施 的 独立 控制 方面 对 授权 进行 了 处 理 。 虽 然 这 对 于 限定 对 
单个 组 件 的 访问 很 有 效 ， 但 它 增 加 了 复杂 度 和 管理 员 的 负担 ， 管 理 员 需 要 学 习 这 些 不 同 
的 控制 方法 。 第 7 章 将 介绍 随 着 Apache Sentry (WHE) 的 引入 ， 授 权 控制 是 如 何 趋 于 
统一 的 。 
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Hadoop 生态 系统 项 目的 整个 生命 周期 中 ， 安 全 授权 以 多 种 形式 被 添加 进 系 统 。 对 于 系统 
管理 员 来 说 ， 实 现 和 维持 一 个 包含 多 个 组 件 的 通用 授权 系统 变 得 越 来 越 有 挑战 性 。 使 问题 
更 复杂 的 是 ， 这 些 多 样 化 组 件 的 授权 控制 机 制 拥 有 不 同等 级 的 粒度 和 执行 策略 ， 这 经 常 使 
管理 员 对 于 用 户 实际 能 在 Hadoop 环境 中 做 什么 (或 不 做 什么 ) 感到 困惑 。 同 其 他 问题 一 
样 ， 这 些 问 题 是 提出 Apache Sentry (WHER) 的 驱动 力 。 


为 了 使 管理 员 可 以 对 用 户 能 访问 什么 进行 更 灵活 的 控制 ，Sentry 项 目 (http://wiki.apache. 
org/incubator/SentryProposal) 提出 了 对 细 粒 度 、 基 于 角色 的 访问 控制 (role-based access 
controls, RBAC) 机 制 的 需求 。 通 常 ，HDFS 的 授权 控制 被 限制 为 简单 的 POXIS 权限 和 
PJR ACL, HA, XIF Hive, Cloudera Impala, Solr, HBase 和 其 他 这 种 在 HDFS 顶层 
工作 的 框架 ， 是 怎样 实现 的 呢 ? Sentry 的 目标 是 为 Hadoop 生态 系统 组 件 用 统一 的 方法 实 
现 授权 机 制 ， 这 样 安 全 管理 员 能 够 轻松 地 对 用 户 和 组 所 能 访问 的 内 容 进 行 控制 ， 而 无 需 知 
道 每 一 个 Hadoop 组 件 具体 的 输入 和 输出 。 


7.1 Sentry 概 念 


每 一 个 使 用 Sentry 作为 授权 机 制 的 组 件 必须 与 Sentry 绑 定 ， 该 绑 定 是 组 件 将 授权 决策 委托 
给 Sentry 的 插件 。 为 了 执行 授权 决策 ， 它 会 应 用 相关 模型 。 例 如 ，SQL 模型 能 够 应 用 于 
Hive 和 Impala，Search 模型 能 够 用 于 Solr, BigTable 模型 能 用 于 HBase fI Accumulo, jii 
后 将 会 详细 讨论 Sentry 的 特权 模型 。 

通过 引用 恰当 的 模型 ，Sentry 利用 策略 引擎 访问 策略 提供 者 ， 以 决定 请 求 的 行为 是 否 获得 
了 授权 。 策 略 提供 者 是 策略 的 存储 机 制 ， 例 如 数据 库 或 文本 文件 。 图 7-1 为 Sentry 组 件 的 
概念 性 视图 。 
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策略 提供 者 


数据 库 














图 7-1: Sentry 组 件 


这 个 流程 解释 了 组 件 如 何 从 高 层 使 用 Sentry， 但 策略 引擎 实际 上 的 授权 决策 过 程 是 怎样 的 
WE? 无 论 给 定 组 件 使 用 的 模型 如 何 ， 都 有 一 些 通用 的 关键 概念 。 用 户 正 是 你 所 期 望 的 样 
子 ， 他 们 是 执行 某 一 特定 行为 的 身份 个 体 ， 这 些 行 为 可 能 是 执行 SQL 查询 、 搜 索 某 一 集 
合 、 读 取 文件 ， 或 是 检索 一 个 键 值 对 。 用 户 也 属于 组 。Sentry 的 上 下 文中 ， 组 是 拥有 同样 
需求 和 特权 的 用 户 集合 。Sentry 中 的 特权 是 一 个 数据 访问 单元 ， 表 示 为 一 个 包含 对 象 和 对 
该 对 象 操作 的 元 组 。 例 如 ， 对 象 可 以 是 数据 库 、 表 或 集合 ， 操 作 可 以 是 创建 、 读 和 写 。 


Sentry 特权 通常 以 肯定 的 方式 进行 定义 ， 因 为 默认 情况 下 ，Sentry 会 拒绝 对 
每 一 个 对 象 的 访问 。 这 种 特权 不 能 与 稍 后 讲 到 的 REVOKE Akit, REVOKE 
功能 仅仅 是 移 除 肯定 特权 。 


























最 后 ， 角 色 是 特权 的 集合 ， 是 Sentry 中 准予 授权 的 基本 单元 。 一 个 角色 通常 匹配 一 个 业务 
功能 ， 例 如 市 场 分 析 员 或 数据 库 管 理 员 。 用 户 、 组 、 特 权 和 角色 之 间 的 关系 在 Sentry 中 很 
重要 ， 并 且 与 下 列 逻 辑 紧 密 相关 : 

。 含有 多 个 用 户 的 组 

。 被 分 配 至 一 个 组 的 角色 

。 被 授予 特权 的 角色 


如 图 7-2 所 示 。 























图 7-2: Sentry 实体 间 的 关系 
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这 种 关系 在 Sentry 中 是 严格 强制 执行 的 。 例 如 ， 我 们 不 可 能 将 角色 分 配给 一 个 用 户 ， 或 是 
将 特权 授予 一 个 组 。 该 关系 为 严格 执行 时 ， 会 产生 几 种 多 对 多 关系 。 一 个 用 户 能 够 属于 多 
个 组 ， 并 且 一 个 组 可 以 包含 多 个 用 户 。 例 如 ，Alice 可 以 同时 隶属 于 市 场 组 和 开发 组 ， 并 
且 开 发 组 能 够 包含 Alice 和 Bob, 


同样 ， 一 个 角色 能 被 分 配给 多 个 组 ， 并 且 一 个 组 能 包含 多 个 角色 。 例 如 ，SQL 分 析 员 角色 
能 够 同时 被 分 配给 市 场 组 和 开发 组 ， 并 且 开 发 组 能 够 包含 SQL 分 析 员 和 数据 库 管 理 员 两 种 
角色 。 


最 后 ， 一 个 角色 能 够 被 授予 多 个 特权 ， 且 某 个 特权 能 够 成 为 多 个 角色 的 一 部 分 。 例 如 ， 
SQL 分 析 员 角色 可 以 拥有 点 击 流 表 中 的 SELECT 特权 和 市 场 数据 库 中 的 CREATE 特权 ， 且 同 
样 的 市 场 数 据 库 中 的 CREATE 特权 也 可 以 同时 被 赋 给 数据 库 管理 员 的 角色 。 


JE Sentry 高 层 概念 后 ， 下 面 继续 深入 了 解 实 现 环 节 。 先 从 最 新 和 最 重要 的 开始 : Sentry 
服务 。 


7.2 Sentry 服 务 


Sentry 项 目 首次 进入 Apache 培育 计划 时 ， 发 布 的 第 一 个 公开 版 本 利用 了 基于 插件 的 方法 。 
能 够 利用 Sentry 的 服务 被 配置 Sentry 插件 〈 绑 定 模块 )， 并 且 该 插件 运行 于 被 配置 的 服务 
内 部 ， 直 接 读 取 策 略 文件 。 与 许多 Hadoop 生态 系统 组 件 不 同 ，Sentry 没有 守护 进程 。 此 
gb, Sentry 策略 在 纯 文 本 文件 中 进行 配置 ， 该 文件 枚 举 每 一 个 策略 。 每 当 添 加 、 修 改 或 删 
除 一 个 策略 时 ， 都 需要 对 文件 进行 修改 。 可 以 想见 ， 这 种 方法 维护 起 来 相当 简朴 和 策 拙 ， 
并 且 很 容易 出 错 。 使 问题 更 严重 的 是 ， 策 略 文件 中 的 错误 会 使 整个 文件 都 失效 ! 


幸运 的 是 ，Sentry 已 经 极 大 地 超越 了 早期 的 这 种 方法 ， 并 且 在 Hadoop 生态 系统 中 已 经 成 
长 为 “一 等 公民 ”。 从 版 本 1.4 开始 ，Sentry 配备 了 一 个 能 够 被 Hive 和 Impala 利用 的 服务 。 
该 服务 使 用 一 个 数据 库 后 端 代 替 了 文本 文件 ， 以 存储 策略 。 另 外 ， 使 用 Sentry 的 服务 被 配 
置 了 指向 Sentry 的 绑 定 ， 而 不 是 采用 在 本 地 处 理 所 有 授权 决策 的 绑 定 。 由 于 Sentry 架构 的 
进步 ， 除 了 老 旧 的 系统 版 本 之 外 ， 不 推荐 Hive 和 Impala 采用 基于 策略 文件 的 配置 。 即 使 
这 样 ， 本 章 还 是 会 对 两 种 配置 的 相关 内 容 都 进行 讲解 。 图 7-3 描述 了 Sentry 服务 是 怎样 融 
入 SQL 访问 的 。 
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7-3; Sentry 服务 架构 
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写作 本 书 时 ，Solr 仍然 在 使 用 策略 文件 。 可 以 预见 ，Solr 将 会 和 其 他 新 的 启用 Sentry 的 服 








务 一 样 ， 抛 弃 基 于 策略 文件 的 配置 。 


Sentry 服 务 配置 





配置 Sentry 并 且 在 集群 中 运行 的 第 一 步 是 ， 要 配置 Sentry 服务 。Sentry 的 主 配置 文件 是 
sentry-site.xml。 示 例 7-1 展示 了 在 开启 Kerberos 的 集群 中 对 Sentry 服务 的 一 种 典型 配 
置 ， 表 7-1 列举 了 配置 参数 。 本 章 后 续 部 分 将 讲解 Hadoop 生态 系统 组 件 是 如 何 将 Sentry 











服务 用 于 授权 的 。 


示例 7-1 Sentry 服务 sentry-site.xml 


<?xml version="1.0" encoding="UTF-8"?> 


<configuration> 

<property> 
<name>sentry.service.server.rpc-address</name> 
<value>server1.exampLle.com</value> 

</property> 

<property> 
«name»sentry.service.server.rpc-port«/name» 
<value>8038</vaLlue> 

</property> 

<property> 
<name>sentry.service.admin.group</name> 
<vaLlue>hive, impala, hue</value> 

</property> 

<property> 
<name>sentry.service.allow.connect</name> 
<value>hive, impala, hue</value> 

</property> 

<property> 
<name>sentry.store.group.mapping</name> 


<value>org.apache.sentry.provider .common.HadoopGroupMappingService</value> 


</property> 

<property> 
<name>sentry.service.server.principal</name> 
<value>sentry/_HOST@EXAMPLE . COM«/ value» 

</property> 

<property> 
<name>sentry.service.security.mode</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>sentry.service.server.keytab</name> 
<value>sentry.keytab</value> 

</property> 

<property> 
<name>sentry.store. jdbc.url</name> 
«value» jdbc:mysql: //server2.example.com: 3306/</value> 

</property> 

<property> 
<name>sentry.store. jdbc. driver</name> 
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<value>com.mysql.jdbc.Driver</value> 


</property> 
<property> 


<name>sentry.store.jdbc.user</name> 


<value>sentry</value> 
</property> 
<property> 


<name>sentry.store.jdbc.password</name> 
<value>sentry_password</value> 


</property> 


</configuration> 


表 7-1 展示 了 senta stie: xnl 相关 的 所 有 配置 参数 ， 包 括 用 于 配置 Sentry 服务 的 参数 、 


用 于 配置 基于 
表 7-1: 


配置 





sentry-site.xml 配 置 


策略 文件 实现 的 参数 ， 以 及 组 件 特定 配置 参数 。 


描述 





hive.sentry.provider 


hive.sentry.provider.resource 


hive.sentry.server 


sentry. 


sentry 


sentry. 
sentry. 


sentry. 


sentry. 
sentry. 
sentry. 
sentry. 


sentry. 


sentry. 
sentry. 


sentry. 


sentry. 


sentry. 


hive. provider. backend 


.metastore.service.users 


provider 
service.admin.group 


service.allow.connect 


service.client.server.rpcaddress 
service.client.server.rpcport 
service.security.mode 
service.server.keytab 


service.server.principal 


service.server.rpc-address 
service.server.rpc-port 


solr.provider.resource 


store.jdbc.driver 


store.jdbc.password 





对 于 Hadoop 组 来 说 通常 为 org.apache.sentry.provider.file. 
HadoopGroupRe 

sourceAuthorizationProvider; 本 地 组 的 该 参数 仅 能 在 策 
略 文件 部 署 中 被 定义 为 org.apache.sentry.provider.fite. 
LocalGro-upResourceAuthorizationProvider 

策略 文件 位 置 ， 可 以 为 file:// 和 hdfs://URIs 

Sentry 服务 的 名 称 ， 可 以 为 任意 名 称 

Sentry 服务 类 型 : org. apache.sentry.provider.file.SimpleFile- 
ProviderBackend 或 者 org.apache.sentry.provider.db.Simple- 
DBProviderBackend 

针对 Hive 的 metastore， 能 够 绕 过 Sentry 策略 的 用 户 列表 ， 只 
适用 于 Sentry 服务 部 署 。 



































与 hive.sentry.provider 相同 的 选项 ， 用 于 Solr 

用 逗号 间隔 的 组 列表 ， 是 Sentry 服务 器 的 管理 员 

用 逗号 间隔 的 允许 连接 的 用 户 列表 ;通常 只 是 服务 用 户 ， 不 
是 终端 用 户 





Sentry 服务 终端 的 客户 端 配 置 

Sentry 服务 端口 的 客户 端 配 置 

Sentry 服务 器 正在 处 于 的 运行 模式 ， 可 选 Kerberos 或 无 。 
包含 sentry.service.server.principal 证 书 的 keytab 文件 名 
sentry.service.server.keytab 包含 的 服务 主体 名 ， 用 于 
Sentry 服务 的 身份 标识 

启动 Sentry 服务 的 主机 名 

监听 的 端口 
Solr 中 策略 文件 的 位 置 ， 既 可 以 为 file://， 也 可 以 为 
hdsf://URIs 
用 于 连接 数据 库 的 JDBC 驱动 名 
连接 时 使 用 的 JDBC 口令 
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配置 描述 
sentry.store.jdbc.url Sentry 服务 器 连接 后 端 数 据 库 时 使 用 的 JDBC URL 
sentry.store.jdbc.user 连接 时 使 用 的 JDBC 用 户 名 

sentry.store.group.mapping 提供 用 户 到 组 的 映射 的 类 ; 通常 为 org.apache.sentry. 











provider.common.HadoopGroupMappingService 


7.3 Hive 授权 


Sentry 的 典型 实现 是 ， 向 Hive 加 入 基于 角色 的 访问 控制 。 没 有 强 授权 控制 机 制 ，Hive 用 
户 可 以 在 没有 太 多 限制 的 情况 下 对 Hive 的 metastore 进行 变更 。 另 外 ， 对 Hive 表 的 访问 完 

受 底层 HDFS 文件 系统 访问 许可 的 控制 ， 该 访问 许可 非常 受 限 。 通 过 Sentry， 安 全 管理 
员 能 够 非常 细 粒 度 地 控制 哪些 用 户 和 组 能 使 用 Hive， 包 括 创建 表 和 视图 、 向 已 存在 的 表 插 
入 新 数据 或 查询 数据 等 操作 。 
为 了 理解 Sentry 是 如 何 向 Hive 提供 授权 机 制 的 ， 首 先 需要 理解 Hive 组 件 是 如 何 合作 的 。 
Hive 架构 中 有 3 个 主要 组 件 : metastore 数据 库 、Hive Metastore Server 和 HiveServer2。 
metastore 数据 库 是 一 个 关系 型 数据 库 ， 包 括 数据 库 、 表 和 视图 信息 、 表 数据 在 HDFS 中 的 
位 置 、 列 的 数据 类 型 、 文 件 格式 和 压缩 等 Hive 元 数据 。 当 一 个 客户 端 与 Hive 互动 时 ， 这 
些 信 息 对 于 理解 即将 执行 的 操作 是 十 分 必要 的 。 


Hive 的 早期 版 本 中 ， 这 些 差不多 是 用 户 能 拥有 的 全 部 ，Hive 客户 端 API 会 直接 与 
metastore 数据 库 对 话 并 执行 操作 。 从 安全 角度 来 说 ， 这 是 件 坏事 。 这 个 模型 意味 着 每 一 
个 Hive 客户 端 都 拥有 访问 Hive 元 数据 库 的 全 部 权限 ! Hive Metastore Server 成 为 Hive 架 
构 下 解决 这 个 问题 的 组 件 。 该 角色 的 目的 是 成 为 Hive 客户 端 和 metastore 数据 库 之 间 的 
中 间 层 。 通 过 这 个 模型 ， 客 户 端 只 需要 知道 怎样 与 Hive Metastore Server 联系 ， 只 有 Hive 
Metastore Server 负责 与 下 层 metastore 数据 库 交 互 。 


Hive 架构 中 的 最 后 一 个 组 件 是 HiveServer2。 这 个 组 件 的 目的 是 通过 JDBC 和 ODBC 这 
类 接口 ， 向 外 部 应 用 提供 查询 服务 。HiveServer2 从 客户 端 接收 请 求 ， 与 Hive Metastore 
Server 通信 ， 以 取 回 元 数据 信息 ， 并 执行 恰当 的 Hive 操作 ， 例 如 分 发 MapReduce 作业 。 
顾名思义 ，HiveServer2 是 这 种 服务 的 第 二 个 版 本 一 一 第 一 版 缺乏 并 发 性 和 安全 特性 。 理 解 
这 部 分 的 重要 之 处 在 于 ，HiveServer2 最 初 就 是 用 于 向 外 部 应 用 提供 服务 的 。Hive 命令 行 
接口 (CLI) 仍然 与 Hive Metastore Server 直接 交互 ， 并 使 用 Hive API 执行 操作 。 用 户 可 
以 在 HiveServer2, beeline 中 使 用 CLI 执行 操作 ， 但 这 不 是 必须 的 。 这 个 事实 向 面向 所 有 
客户 端的 强制 授权 机 制 提出 了 挑战 。 你 可 能 猜 到 了 ， 为 了 实现 这 个 目标 (强制 授权 )， 就 
要 加 强 HiveServer2 的 安全 授权 ， 并 确保 所 有 SQL 客户 端 都 必须 通过 HiveServer2 执行 任 
何 Hive 的 SQL 操作 。 

Hive 架构 中 的 另 一 个 组 件 是 HCatalog。 这 是 一 个 库 的 集合 ， 该 集合 中 的 库 能 够 允许 非 
SQL 客户 端 访问 Hive Metastore 结构 体 。 这 对 于 Pig 或 MapReduce 用 户 很 有 有 用， 他们 
可 以 不 使 用 传统 的 Hive 客户 端 确定 文件 的 metadata 结构 体 。HCatalog 库 的 一 个 扩展 是 
WebHCatServer 组 件 ， 该 组 件 是 一 个 提供 REST 接口 以 执行 HCatalog 函数 的 守护 进程 。 
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HCatalog 库 和 WebHCatServer 都 不 利用 HiveServer2。 所 有 通信 都 是 直接 与 Hive Metastore 
Server 进行 的 。 由 于 这 一 点 ，Hive Metastore Server 也 必须 受到 Sentry 的 保护 ， 以 确保 
HCatalog 用 户 不 能 对 Hive Metastore 数据 库 进行 任意 修改 。 





虽然 Sentry 的 1.4 版 能 够 对 Hive Metastore Server 提供 写 保 护 ， 但 它 并 不 同 
时 限制 读 操 作 。 这 意味 着 ， 某 个 用 户 在 HCatalog 中 进行 一 些 相当 于 SHOW 
TABLES 的 操作 时 ， 系 统 会 返回 所 有 表 的 列表 ， 包 括 用 户 设 有 权限 访问 的 那些 
表 。 这 与 通过 HiveServer2 执行 的 相同 操作 不 同 ，HiveServer2 中 ， 用 户 只 能 
看 见 他 们 有 权限 访问 的 那些 对 象 。 然 而 这 仅仅 是 元 数据 泄漏 。 实 际 数据 的 访 
问 在 HDFS 访问 的 时 候 仍 旧 会 被 强制 控制 。 如 果 集 群 没 有 任何 使 用 HCatalog 
的 用 户 ， 那 么 对 所 有 Hive 和 HiveServer2 的 流量 实现 强制 访问 控制 的 方法 
是 ， 在 配置 文件 core-site.xml 中 将 属性 hadoop. proxyuser.hive.groups iX 
置 为 htive，impala， 这 样 就 能 允许 有 且 仅 有 Hive (HiveServer2) 和 Impala 
(Catalog Server) 都 能 直接 访问 Hive Metastore Server。 



































7-4 展示 了 Hive 架构 的 布局 和 Sentry 的 强制 访问 机 制 的 发 生 位 置 。 无 论 什么 访问 方法 ， 
核心 的 强制 机 制 是 保护 Hive 元 数据 不 受 非 授权 修改 。 





HiveServer2 







Hive Metastore Server 


Hive 
WebHCatalog 
Server 











7-4; Hive sentry 架构 


Hive Sentry 的 配置 


本 节 将 了 解 通过 配置 Hive 使 用 Sentry 授权 的 必需 要 素 。 示 例 7-2 展示 了 能 够 利用 Sentry 
授权 的 ， 用 于 Hive Metastore Server 和 HiveServer2 的 配置 文件 sentry-site.xml, 


示例 7-2 Hive sentry-site.xml 服务 部 署 


<configuration> 
<property> 
<name>hive.sentry.server</name> 
<value>serveri</value> 
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</property> 

<property> 
<name>sentry.service.server.principal</name> 
<value>sentry/_HOST@EXAMPLE.COM</vaLlue> 

</property> 

<property> 
<name>sentry.service.security.mode</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>sentry.hive.provider .backend</name> 
<value>org.apache.sentry.provider.db.SimpleDBProviderBackend</value> 

</property> 

<property> 
<name>sentry.service.client.server.rpc-address</name> 
<value>server1.exampLle.com</value> 

</property> 

<property> 
<name>sentry.service.client.server.rpc-port</name> 
<value>8038</vaLlue> 

</property> 

<property> 
<name>hive.sentry.provider</name> 
«value» 

org.apache.sentry.provider.file.HadoopGroupResourceAuthorizationProvider 

</value> 

</property> 

<property> 
<name>sentry.metastore.service.users</name> 
<value>hive, impala, hue, hdfs</value> 

</property> 

</configuration> 


示例 7-3 展示 了 使 用 HiveServer2 (与 Hive Metastore Server) 和 基于 策略 文件 的 部 署 时 ， 
Sentry 的 一 种 典型 配置 。Sentry 中 ， 基 于 策略 文件 的 配置 比 基 于 服务 的 配置 精简 许多 ， 但 
它们 之 间 仍 然 存 在 共同 点 。 稍 后 将 看 到 ，HiveServer2 守护 进程 的 hive-site.xml 配置 文件 
中 ， 指 明了 sentry-site.xml 文件 在 本 地 文件 系统 中 的 位 置 。 


示例 7-3 Hive sentry-site.xml 策略 文件 部 署 


<?xml version="1.0" encoding="UTF-8"?> 











<configuration> 

<property> 
<name>hive.sentry.provider</name> 
«value» 

org.apache.sentry.provider.file.HadoopGroupResourceAuthorizationProvider 

</value> 

</property> 

<property> 
<name>sentry.hive.provider .backend</name> 
<value>org.apache.sentry.provider.file.SimpleFileProviderBackend</vaLlue> 

</property> 

<property> 





Apache Sentry (#442) | 107 


<name>hive.sentry.provider.resource</name> 
<value>/user/hive/sentry/sentry-provider .ini</value> 

</property> 

<property> 
<name>hive.sentry.server</name> 
«value»serveri«/value» 

</property> 

</configuration> 


首先 看 看 两 个 例子 中 都 用 到 的 配置 属性 。hive.sentry.server 参数 为 这 个 特定 的 Sentry 
服务 器 指定 了 名 称 (标签 )， 可 以 在 策略 中 引用 。 这 个 名 称 与 机 器 的 主机 名 无 关 。 配 置 
sentry.hive.provider.backend 可 以 告诉 Hive 使 用 哪个 后 端 服 务 。 参 数 org.apache.sentry. 
provider.db.SimpleDBProviderBackend (Sentry 服务 ) 和 org.apache.sentry.provider.file. 
SimplefileProviderBackend. hive.sentry.provider (Sentry 策略 文件 ) 分 别 配 置 了 Sentry 
确定 组 信息 的 方法 。 这 里 展示 的 HadoopGroupResourceAuthorizationProvider 将 会 利用 
hadoop 的 所 有 配置 方法 ， 如 从 本 地 操作 系统 读 取 组 ， 或 者 从 LDAP 上 直接 拉 取 组 信息 等 。 
然而 这 仅 是 示例 7-2 举 出 的 一 种 形式 ， 因 为 Sentry 服务 不 能 使 用 策略 文件 定义 本 地 用 户 到 
组 的 映射 。 


接 下 来 了 解 专门 针对 Sentry 服务 的 配置 示例 。Hive 如 何 连接 到 Sentry 服务 的 细节 由 以 下 
参数 提供 : 


。 sentry.service.client.server.rpc-address 





。 sentry.service.client.server.rpc-port 


sentry.service.server.principal 和 sentry.service.security.mode 都 会 对 Kerberos 配置 
的 细节 进行 设置 。 最 后 ，sentry.metastore.service.users 的 配置 会 列 出 那些 被 允许 能 够 
绕 过 Sentry 授权 机 制 ， 并 且 与 Hive Metastore Server 直 连 的 用 户 一 一 通常 是 类 似 于 Hive 和 
Impala 的 服务 / 系统 用 户 。 


对 hive.sentry.provider.resource 的 配置 是 特定 于 域 策略 文件 部 署 示例 的 。 该 参数 指定 了 
策略 文件 的 存储 位 置 。 指 定 的 Sentry 策略 文件 位 置 会 假定 与 hdfs-site.xml 文件 中 指定 的 
位 置 一 样 。 例 如 ， 若 hdfs-site.xml 指向 HDFS， 就 会 默认 HDFS 中 存在 路 径 user /hive/ 
sentry/sentry-provider.ini。 此 外 也 可 以 通过 提供 HDFS 路 径 hdfs:// 或 者 本 地 文件 系统 
路 径 file:// 明确 存储 位 置 。 


sentry-site.xml 的 配置 对 Hive 很 重要 ， 与 之 形成 对 比 的 是 ， 该 文件 并 未 对 其 本 身 局 
用 Sentry 授权 机 制 。 因 此 ， 在 Hive 的 配置 文件 hive-site.xml 中 进行 额外 配置 是 必要 
的 。 示 例 7-4 展示 了 Hive Metastore Server 需要 的 相关 配置 ， 与 之 类 似 ， 示 例 7-5 展示 了 
HiveServer2 所 需 的 相关 配置 。 这 两 种 配置 虽然 相似 ， 但 仍 有 所 区 别 。 示 例 7-6 中 ， 最 后 的 
hive-site.xml 示例 展示 了 HiveServer2 在 基于 策略 文件 的 部 署 中 所 需 的 配置 。 注 意 ， 基 于 
策略 文件 的 部 署 中 ，Hive Metastore Server 不 需要 额外 配置 〈 稍 后 详 述 ) 。 



































示例 7-4 Hive Metastore Server hive-site.xml 的 Sentry 服务 配置 


<?xml version="1.0" encoding="UTF-8"?> 


<configuration> 





fe 
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<!-- Unrelated properties omitted --> 
<property> 
<name>hive.sentry.conf.url</name> 
<value>file: ///etc/hive/conf/sentry-site.xml</value> 
</property> 
<property> 
<name>hive.metastore.pre.event. listeners</name> 


<value>org.apache.sentry.binding.metastore.MetastoreAuthzBinding</vaLlue> 


</property> 

<property> 
«name-hive.metastore.event.listeners«/name» 
«value» 

org.apache.sentry.binding.metastore.SentryMetastorePostEventListener 

</value> 

</property> 

</configuration> 


示例 7-5 HiveServer2 hive-site.xml 的 Sentry 服务 配置 


<?xml version="1.0" encoding="UTF -8"?> 


<configuration> 

<!-- Unrelated properties omitted --> 

<property> 
<name>hive.server2.enable.doAs</name> 
<value>false</value> 

</property> 

<property> 
<name>hive.server2.session.hook</name> 


<value>org.apache.sentry.binding.hive.HiveAuthzBindingSessionHook</value> 


</property> 

<property> 
<name>hive.sentry.conf.url</name> 
<value>file:///etc/hive/conf/sentry-site.xml</value> 

</property> 

<property> 
<name>hive. security. authorization. task. factory</name> 
<value> 

org.apache.sentry.binding. hive. SentryHiveAuthorizationTaskFactoryImpL 

</value> 

</property> 

</configuration> 


示例 7-6 HiveServer2 hive-site.xml 的 Sentry 策略 文件 配置 


<?xml version="1.0" encoding="UTF-8"?> 


<configuration> 

<!-- Unrelated properties omitted --> 

<property> 
<name>hive.server2.enable.doAs</name> 
<value>false</value> 

</property> 

<property> 
<name>hive.server2.session.hook</name> 
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«valuesorg.apache.sentry.binding.hive.HiveAuthzBindingSessionHook«/value» 
</property> 
<property> 
<name>hive.sentry.conf.url</name> 
<value>file:///etc/hive/conf/sentry-site.xml</value> 
</property> 
</configuration> 


所 有 三 个 hive-site.xml 示例 中 ， 配 置 参数 hive.sentry.conf.url 告诉 Hive 应 到 何 处 定位 
Sentry 配置 文件 。HiveServer2 的 两 个 示例 中 ， 参 数 hive.server2.session.hook 用 于 指定 
一 个 绑 定 ， 该 绑 定 会 实质 上 将 授权 决策 传递 给 Sentry, 


同样 ，HiveServer2 的 两 个 示例 中 ， 要 注意 用 户 模拟 功能 是 关闭 的 。 关 闭 Hive 的 用 户 模 
拟 是 Sentry 配置 中 的 关键 一 环 。 为 了 真正 实现 从 查询 到 数据 访问 这 一 过 程 的 强制 授权 ， 
Sentry 和 Hive 需要 对 查询 接口 和 文件 访问 都 进行 控制 。 为 此 ，Hive warehouse 的 HDFS 权 
限 需要 被 锁定 ， 如 示例 7-7 所 示 。 


示例 7-7 锁定 Hive 数据 仓库 


[alice@server1 ~]$ kinit hdfs 

Enter password for hdfs@EXAMPLE.COM: 

[alice@server1 ~]$ hdfs dfs -chown -R hive:hive /user/hive/warehouse 
[alice@server1 ~]$ hdfs dfs -chmod -R 0771 /user/hive/warehouse 
[alice@server1 ~]$ 


锁定 Hive warehouse 并 且 禁 用 用 户 模拟 后 ，Sentry 便 控 制 了 查询 接口 的 授权 。 由 于 只 
Hive 系统 用 户 能 够 访问 文件 ， 因 此 HDFS 权限 也 被 锁定 。 从 安全 角度 来 说 这 样 更 好 ， 而 
且 这 还 使 得 Sentry 拥有 在 低 至 视图 级 进行 控制 授权 的 能 力 。 视 图 能 被 用 于 列 级 安全 (只 
选择 某 些 特定 列 ) 和 行 级 安全 ， 如 提供 一 个 WHERE 子 句 的 过 滤器 。 如 果 启 用 用 户 模拟 ， 那 
么 查询 行为 会 被 当 作 终 端 用 户 。 视 图 级 权限 没有 被 切合 实际 地 强制 限制 ， 因 为 用 户 拥 有 
HDFS 的 文件 级 (如 表 级 ) 访问 权限 ， 并 且 能 够 通过 直接 访问 文件 绕 过 Sentry 策略 ， 例 如 
MapReduce。 


7.4 Impala 授 权 


Sentry 的 初始 版 本 包括 对 Hive 和 Impala 的 支持 。 虽 然 这 两 个 组 件 拥有 一 些 相似 性 ， 但 它 
们 在 架构 上 有 着 本 质 区 别 ， 所 以 彻底 理解 Sentry 如 何 融入 系统 之 前 ， 需 要 先 对 此 进行 强 
调 。 首 先 ，Impala 是 一 整个 处 理 框 架 。 与 Hive 不 同 的 地 方 在 于 ，Hive 没有 任何 处 理 能 
力 进行 用 户 要 求 的 实际 工作 。 这 种 工作 默认 由 MapReduce 处 理 的 (独立 的 版 本 1， 或 者 
YARN 上 的 版 本 2)。 


Impala 架构 由 三 部 分 组 成 : Daemon, StateStore 和 Catalog 服务 。Impala Daemon 即 
impaLad， 是 实际 上 的 工作 进程 ， 它 运行 于 集群 中 每 一 个 运行 有 HDFS DataNode 守护 进程 
的 节点 。Impala StateStore 即 statestored， 负 责 记录 集群 中 所 有 impalad 实例 的 健康 状态 。 
若 一 个 实例 出 现 问 题 ，statestored 会 将 这 个 信息 广播 给 其 余 所 有 impalad 实例 。 虽 然 这 看 起 
来 像 是 Impala 架构 中 的 核心 组 件 ， 但 实际 上 它 不 是 必需 的 。 如 果 statestored 进程 挂 掉 或 根 
本 不 存在 ， 那 么 所 有 被 impalad 实例 完成 的 工作 会 继续 运作 。 唯 一 潜在 的 影响 是 ， 如 果 一 
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个 impalad 实例 变 得 不 健康 ， 则 余下 的 实例 会 发 现 得 很 慢 ， 这 会 导致 总 的 查询 执行 时 间 延 
38, Impala Catalog 服务 又 叫 catalogd， 负 责 追 踪 记 录 元 数据 的 变化 。 如 果 一 个 Impala 查 
询 在 一 个 impalad 上 被 执行 ， 并 以 某 种 方式 改变 了 元 数据 ，catalogd 会 将 更 新 的 元 数据 广播 
至 其 他 impalad 实例 。catalogd 负责 与 Hive Metastore Server 通信 ， 以 取得 所 有 存在 的 元 数 
据 信息 。 

之 前 已 经 回顾 了 Impala 架构 的 基础 知识 ， 下 面 学 习 Sentry 真正 发 挥 作用 的 地 方 。 正 如 早 
先 对 Hive 的 讨论 中 冰 述 的 那样 ，Sentry 是 Hive 组 件 HiveServer2 和 Hive Metastore Server 


的 插件 ， 









































大 多 数 时 候 是 集群 中 的 独立 实例 。 通 过 Impala, Sentry 不 再 是 用 于 扩充 单一 主 组 





件 的 集中 化 插件 ， 就 像 给 catalogd 或 者 statestored 进程 做 的 那样 。 实 际 上 ，Sentry 在 每 一 

个 impalad 实例 中 都 被 启用 。 用 户 通 过 Sentry 连接 某 个 特定 impalad 并 进行 一 次 查询 时 ， 
impalad 利用 Sentry 策略 (要么 来 自 Sentry 服务 ， 要 么 来 自 策 略 文 件 ) 决定 该 用 户 是 否 被 
授权 执行 这 次 请 求 行为 。 


Impala 的 Sentry 配 置 


正如 前 面 学 习 Hive 一 样 ， 本 节 将 了 解 如 何 配置 Inpala， 使 之 利用 Sentry 进行 授权 控制 。 
示例 7-8 展示 了 Impala 守护 进程 为 利用 Sentry 服务 而 使 用 的 配置 文件 sentry-site.xml, 
于 策略 文件 的 部 署 中 ，sentry-site.xml 文件 不 是 必需 的 。 


示例 7-8 Impala sentry-site.xml 的 服务 部 署 


<?xml version="1.0" encoding="UTF-8"?> 














<configuration> 


<property> 
<name>sentry.service.server.principal</name> 
<value>sentry/_HOST@EXAMPLE . COM«/ value» 

</property> 

<property> 
<name>sentry.service.security.mode</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>sentry.service.client.server.rpc-address</name> 
<value>server1.exampLle.com</value> 

</property> 

<property> 
«name»sentry.service.client.server.rpc-port«/name» 
<value>8038</value> 

</property> 


</configuration> 


你 可 ` 


已 经 意识 到 ，Impala 使 用 Sentry 服务 时 ， 对 sentry-site.xml 的 配置 正 是 Hive 同类 


配置 的 子 集 。 上 一 市 已 经 讨论 了 这 些 属性 ， 现 在 可 以 直接 看 看 要 想 启用 Sentry 授权 机 制 ， 


应 如 何 配置 Impala 守护 进程 。 








Sentry 服务 的 部 署 中 ，Impala 守护 进程 仅 需要 配置 三 个 标识 。 第 一 个 标识 是 server_name， 
‘Exe Sentry 服务 器 的 标签 。 该 标识 与 hive.sentry.server 的 配置 参数 相 匹配 。 第 二 个 标识 
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是 sentry_config， 将 Impala 守护 进程 指向 配置 文件 sentry-site.xml 的 存储 位 置 。 第 三 个 
标识 是 authorized_proxy_user_config， 用 于 指定 某 些 用 户 作为 其 他 用 户 的 模拟 ， 例 如 hue 
用 户 。 示 例 7-9 展示 了 这 种 配置 。 


示例 7-9 用 于 Sentry 服务 配置 的 Impala 标识 


...Other unrelated flags omitted for brevity 
-server_name=server1 
-sentry_config=/etc/impala/conf/sentry-site.xml 
-authorized_proxy_user_config=hue=* 


基于 Sentry 策略 文件 的 部 署 中 ，Impala 守护 进程 不 需要 Sentry Config 标识 ， 而 配置 为 
authorization_policy_file 和 authorization_policy_provider_class 标识 。 这 些 标 识 分 
别 指明 了 Sentry 策略 文件 的 位 置 和 授权 提供 者 类 的 位 置 。 后 者 的 配置 属性 已 被 设 为 hive. 
sentry provider ， 可 达到 同样 的 目的 ， 如 示例 7-10 所 示 。 








示例 7-10 
...Other unrelated flags omitted for brevity 
-server_name=server1 
-authorized_proxy_user_config=hue=* 
-authorization_policy_file=/user/hive/sentry/sentry-provider.ini 
-authorization_policy_provider_class=\ 
org.apache.sentry.provider.file.HadoopGroupResourceAuthorizationProvider 


7.5 ” ”Solr 授权 


Solr 的 授权 始 于 集合 。 集 合 是 访问 的 主要 入 口 ， 集 合 之 于 Sole 类 似 于 数据 库 之 于 SQL. 
Sentry 授权 最 开始 是 在 集合 层面 定义 特权 的 。Sentry 由 此 演变 出 文件 级 授权 。 文 件 级 授权 
通过 给 每 个 文件 标 上 特定 的 字段 名 实现 ， 该 字段 名 包括 与 在 Sentry 策略 文件 〈 稍 后 进行 立 
XR) 中 定义 的 相关 Sentry 角色 名 对 应 的 值 。 给 文件 打 标签 的 步骤 将 会 在 数据 导入 时 进行 ， 
因此 ， 通 过 良好 的 角色 名 避免 重新 处 理 文件 修改 标签 是 很 重要 的 。 





























Solr 的 Sentry 配 置 


本 节 阐 述 如 何 给 Solr 配置 Sentry 授权 。 示 例 7-11 展示 了 如 何在 配置 文件 sentry-site.xml 
中 对 Solr 服务 器 进行 配置 。 


示例 7-11 Solr 的 sentry-site.xml 配置 文件 部 署 


<?xml version="1.0" encoding="UTF-8"?> 





<configuration> 

<property> 
<name>sentry.provider</name> 
«value» 

org.apache.sentry.provider.file.HadoopGroupResourceAuthorizationProvider 

</value> 

</property> 

<property> 
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<name>sentry.soLr.provider.resource</name> 
<value>/user/solr/sentry/sentry-provider.ini</value> 
</property> 
</configuration> 


示例 7.11 展示 的 两 个 配置 参数 此 时 看 起 来 非常 相似 ， 但 这 些 参数 名 在 Sole 中 仍然 略 有 区 别 。 
配置 参数 sentry.provider 与 Hive 中 的 hive.sentry.provider, Impala 中 的 authorization_ 
policy_provider_class 标识 的 工作 原理 相似 。 配 置 参 数 sentry.solr.provider.resource 指 
E T Sentry 策略 文件 的 位 置 。 重 申 一 下 ， 策 略 文件 既 可 以 放 在 本 地 文件 系统 ， 也 可 以 放 在 
HDFS 中 。 该 文件 需要 对 正在 运行 Solr 服务 的 用 户 (如 solr 用 户 ) 可 读 。 

为 了 给 Solr 服务 配置 Sentry 授权 ， 需 要 一 些 环境 变量 。 这 些 参数 既 可 以 配置 为 环境 变 
量 ， 也 可 以 配置 为 /etc/default/solr 配置 文件 中 的 参数 行 。 第 一 个 参数 是 SOLR_SENTRY_ 
ENABLED。 显 然 ， 该 参数 被 置 为 ture 时 ， 启 用 Sentry 授权 机 制 。 下 一 个 参数 是 SOLR 
AUTHORIZATION_SUPERUSER。 该 参数 用 于 定义 拥有 超级 用 户 权 限 的 用 户 ， 即 solr 用 户 。 最 后 
一 个 参数 为 SOLR_AUTHORIZATION_SENTRY_SITE， 该 参数 指定 了 配置 文件 sentry-site.xml 的 
fr. 〈 稍 后 介绍 ) 。 示 例 7-12 展示 了 这 些 配 置 。 


示例 7-12 Sentry 策略 文件 使 用 中 的 Sole 环境 变量 


...Other unrelated environment variables omitted for brevity 
SOLR_SENTRY_ENABLED=true 

SOLR_AUTHORIZATION_SUPERUSER=soLr 
SOLR_AUTHORIZATION_SENTRY_SITE=/etc/solr/conf/sentry-site.xml 


本 节 早 先 提 到 过 ， 能 够 进行 文件 级 授权 。 为 了 实现 这 个 功能 ， 有 必要 对 集合 进行 一 些 配 
置 。 集 合 的 配置 默认 通过 配置 文件 soLrconfig.xml 进行 。 该 文件 如 示例 7-13 所 示 。 

















示例 7-13 ”文件 级 安全 solrconfig.xml 


<searchComponent name="queryDocAuthorization" 
class="org.apache.solr.handler.component.QueryDocAuthorizationComponent"> 
<bool name="enabled">true</bool> 
«str name="sentryAuthField">sentry_auth</str> 
«str name="allRolesToken">*</str> 
</searchComponent> 


示例 7-13 展示 了 org.apache.solr.handler.component.QueryDocAuthorizationComponent 类 
被 用 于 文件 级 授权 决策 ， 将 enabled 参数 设 为 true 即 可 开启。 配置 参数 sentryAuthfield 
定义 了 文件 包含 能 确定 访问 权限 的 授权 令 牌 的 字段 名 称 。senty_auth 的 默认 值 如 示例 所 
示 ， 但 也 可 被 设置 为 任意 值 。 文 件 将 会 使 用 这 个 标签 插入 访问 本 文件 所 需 的 角色 名 。 最 后 
一 个 配置 参数 allRolesToken 定义 了 一 个 允许 所 有 角色 都 可 访问 某 个 文件 的 令 牌 。 该 参数 
默认 值 为 *， 可 以 保持 该 值 不 变 ， 从 而 与 其 他 Sentry 特权 的 通配符 保持 一 致 。 


7.6 Sentry 特 权 模 型 


本 市 将 了 解 Sentry 提供 授权 的 多 种 服务 的 特权 模型 。 特 权 模 型 能 够 标识 特权 、 特 权 对 应 的 
对 象 类 型 、 特 权 有 效 范 围 及 其 他 有 助 于 安全 管理 员 理 解 可 用 授权 控制 的 相关 信息 和 粒度 。 
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充分 理解 特权 模型 能 够 确保 选择 合适 的 策略 ， 以 满足 授权 控制 需要 的 程度 ， 并 保护 数据 不 
会 受到 非 授权 的 访问 。 


7.6. SQL 特权 模型 

Sentry 为 SQL 访问 提供 了 三 种 权限 : SELECT, INSERT 和 ALL。 这 些 权限 并 不 可 用 于 每 
一 个 对 象 。 表 7-2 提供 了 SQL 上 下 文中 权限 和 对 象 的 对 应 情况 。SQL 权限 模型 是 分 层 的 ， 
这 意味 着 容器 客体 会 将 特权 传递 给 予 对 象 。 这 对 于 透彻 理解 用 户 是 否 拥有 访问 权限 是 很 重 
要 的 。 

表 7-2: SQL 特权 类 型 











特权 对 象 

INSERT TABLE, URI 
SELECT TABLE, VIEW, URI 
ALL SERVER, DB, URI 


a 所 有 特权 模型 表 都 由 Cloudera, Inc 授权 ， 从 cloudera.com 复制 而 来 。 





表 7-3 列 出 了 容器 权限 在 给 定 对 象 处 的 受到 粒度 特权 的 支配 。 例 如 ， 表 中 第 一 行 可 理解 为 
“一 个 SERVER 对 象 的 ALL 权限 使 得 DATABASE 对 象 也 拥有 ALL 权限 ”。 


表 7-3: SQL 权限 层级 








基础 对 象 粒度 权限 容器 对 象 容器 对 象 传递 的 粒度 权限 
DATABASE ALL SERVER ALL 
TABLE INSERT DATABASE ALL 
TABLE INSERT DATABASE ALL 
VIEW SELECT DATABASE ALL 


SQL 特权 模型 的 最 后 一 部 分 是 ， 理 解 权 限 如 何 映射 到 SQL 操作 。 表 7-4 展示 了 某 个 给 定 
的 SQL 操作 、 操 作 应 用 的 对 象 范 围 和 执行 该 操作 需要 什么 权限 。 例 如 ， 表 中 第 一 行 可 理 
解 为 “CREATE DATABASE 操作 可 应 用 于 SERVER 对 象 并 且 需 要 对 SERVER 对 象 的 
ALL 权限 ”。 一 些 SQL 操作 需要 不 止 一 种 权限 ， 例 如 创建 视图 。 创 建 一 个 新 的 视图 需要 
有 对 视图 所 在 DATABASE 的 ALL 权限 ， 也 需要 有 对 于 被 新 视图 引用 的 表 /视图 对 象 的 
SELECT 权限 。 


表 7-4: SQL 权限 







































































SQL 操作 范围 权限 
CREATE DATABASE SERVER ALL 
DROP DATABASE DATABASE ALL 
CREATE TABLE DATABASE ALL 
DROP TABLE TABLE ALL 








(X) 





SQL 操作 范 权限 

CREATE VIEW DATABASE; SELECT on TABLE ALL 

DROP VIEW VIEW/TABLE ALL 

CREATE INDEX TABLE ALL 

DROP INDEX TABLE ALL 

ALTER TABLE ADD COLUMNS TABLE ALL 

ALTER TABLE REPALCE COLUMNS TABLE ALL 

ALTER TABLE CHANGE column TABLE ALL 

ALTER TABLE RENAME TABLE ALL 

ALTER TABLE SET TBLPROPERTIES TABLE ALL 

ALTER TABLE SET FILEFORMAT TABLE ALL 

ALTER TABLER SET LOCATION TABLE ALL 

ALTER TABLE ADD PARTITION TABLE ALL 

ALTER TABLE ADD PARTITION location TABLE ALL 

ALTER TABLE DROP PARTITION TABLE ALL 

ALTER TABLE PARTITION SET TABLE ALL 
FILEFORMAT 

SHOW TBLPROPERTIES TABLE SELECT/INSERT 
SHOW CREATE TABLE TABLE SELECT/INSERT 
SHOW PARTITIONS TABLE SELECT/INSERT 
DESCRIBE TABLE TABLE SELECT/INSERT 
DESCRIBE TABLE PARTITION TABLE SELECT/INSERT 
LOAD DATA TABLE; URI INSERT 

SELECT TABLE SELECT 
INSERT OVERWRITE TABLE TABLE INSERT 
CREATE TABLE AS SELECT DATABASE; SELECT on TABLE ALL 

USE database ANY ANY 

ALTER TABLE SET SERDEPROPERTIES TABLE ALL 

ALTER TABLE PARTITION SET TABLE ALL 
SERDEPROPERTIES 

CREATE ROLE SERVER ALL 

GRANT ROLE TO GROUP SERVER ALL 

GRANT PRIVILEGE ON SERVER SERVER ALL 

GRANT PRIVILEGE ON DATABASE DATABASE WITH GRANT OPTION 
GRANT PRIVILEGE ON TABLE TABLE WITH GRANT OPTION 





虽然 Hive 和 Impala 支持 大 多 数 SQL 操作 ， 但 仍 有 一 些 操 作 仅 能 被 Hive 或 Impala 一 方 支 
持 ， 或 均 尚 未 实现 。 表 7-5 列 出 了 仅 能 应 用 于 Hive 的 SQL 权限 ， 表 7-6 7I) H 





于 Impala 的 SQL 权限 。 








上 了 仅 能 应 用 
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表 7-5: 仅 用 于 Hive 的 SQL 权限 








SQL 操作 范围 权限 
INSERT OVERWRITE DIRECTORY TABLE; URI INSERT 
ANALYZE TABLE TABLE SELECT+INSERT 
IMPORT TABLE DATABASE; URI ALL 
EXPORT TABLE TABLE; URI SELECT 
ALTER TABLE TOUCH TABLE ALL 
ALTER TABLE TOUCH PARTITION TABLE ALL 
ALTER TABLE CLUSTERED BY SORTED BY TABLE ALL 
ALTER TABLE ENABLE/DISABLE TABLE ALL 
ALTER TABLE PARTITION ENABLE/DISABLE TABLE ALL 
ALTER TABLE PARTITION RENAME TO PARTITION TABLE ALL 
ALTER DATABASE DATABASE ALL 
DESCRIBE DATABASE DATABASE SELECT/INSERT 
SHOW COLUMNS TABLE SELECT/INSERT 
SHOW INDEXES TABLE SELECT/INSERT 
表 7-6: 仅 用 于 Impala 的 SQL 权限 
SQL 操作 范围 权限 
EXPLAIN TABLE SELECT 
INVALIDATE METADATA SERVER ALL 
INVALIDATE METADATA table TABLE SELECTVINSERT 
REFRESH table TABLE SELECT/INSERT 
CREATE FUNCTION SERVER ALL 
DROP FUNCTION SERVER ALL 
COMPUTE STATS TABLE ALL 


7.6.2 Solr 特 权 


模型 


对 于 Solr, Sentry 提供 三 种 权限 : QUERY, UPDATE 和 *(ALL)。Solr 的 特权 模型 分 为 应 用 于 


请 求 处 理 程序 (handler) 





的 特权 和 应 用 于 集合 的 特权 。 表 7-8~ 表 7-10 H, admin 集合 名 在 

















Sentry 中 是 用 于 代表 管理 


个 任意 集合 名 。 





行为 的 特殊 集合 。 所 有 Solr 特权 模型 表 中 ，collection1 表示 一 


表 7-7: 非 管理 事务 请 求 处 理 程序 的 Solr 权 限 表 











请 求 处 理 程序 所 需 权限 需要 权限 的 集合 
Select QUERY collection1 
query QUERY collection! 
get QUERY collection! 
browse QUERY collection! 
tvrh QUERY collection! 
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(X) 








请 求 处 理 程序 所 需 权 限 需要 权限 的 集合 
clustering QUERY collection1 

terms QUERY collection! 

elevate QUERY collection! 
analysis/field QUERY collection! 
analysis/document QUERY collection! 

update UPDATE collection! 
update/json UPDATE collection! 
update/csv UPDATE collection! 

表 7-8: admin 集 合 操作 的 Solr 权 限 表 

集合 操作 所 需 权 限 需要 权限 的 集合 
create UPDATE admin, collection! 
delete UPDATE admin, collection1 
reload UPDATE admin, collectionl 
createAlias UPDATE admin, collection! 
deleteAlias UPDATE admin, collection! 
syncShard UPDATE admin, collection! 
splitShard UPDATE admin, collection! 
delelteShard UPDATE admin, collection! 





表 7-9: 核心 admin 操 作 的 Solr 权 限 表 








集合 操作 所 需 权限 需要 权限 的 集合 
create UPDATE admin, collection! 
rename UPDATE admin, collection] 
load UPDATE admin, collection! 
unload UPDATE admin, collection] 
status UPDATE admin, collection] 
persist UPDATE admin 

reload UPDATE admin, collection] 
swap UPDATE admin, collection] 
mergeIndexes UPDATE admin, collection] 
split UPDATE admin, collection] 
prepRecover UPDATE admin, collection1 
requestRecover UPDATE admin, collection] 
requestSyncShard UPDATE admin, collection1 
requestApply Updates UPDATE admin, collection1 
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表 7-10: 信息 和 管理 员 处 理 程序 的 Solr 权 限 表 





请 求 处 理 程序 所 需 权 限 需要 权限 的 集合 
LukeRequestHandler QUERY admin 
SystemInfoHandler QUERY admin 
SolrInfoMBeanHandler QUERY admin 
PluginInfoHandler QUERY admin 
ThreadDumpHandler QUERY admin 
PropertiesRequestHandler QUERY admin 
LogginHandler QUERY, UPDATE(or*) admin 
ShowFileRequestHandler QUERY admin 





7.7 Sentry 策 略 管理 











前 








而 已 经 讲解 了 权限 表 和 可 用 的 访问 方式 ， 下 


而 进一步 了 解 实际 的 策略 是 怎样 被 添加 、 删 








除 或 修改 的 。 管 理 不 同 策略 的 方法 要 依赖 于 Sentry 的 部 署 类 型 ， 要 么 是 新 的 Sentry 服务 ， 
要 么 是 旧 的 策略 文件 。 对 于 前 者 (这 也 是 我 们 推荐 的 类 型 )， 管 理 策略 文件 的 方法 是 通过 








SQL 命令 实现 的 。 


7.7.41 SQL 命令 











习惯 了 在 流行 的 关系 型 数据 库 系统 中 管理 角色 和 许可 的 安全 管理 员 会 发 现 ， 管 理 Sentry 策 





略 的 SQL 语法 十 分 眼熟 。 表 7-11 展示 了 管理 员 管 理 


表 7-11: Sentry 策 略 的 SQL 语法 

















Sentry 策略 时 的 所 有 可 用 声明 。 





声明 描述 
CREATE ROLE role_name 创建 拥有 指定 名 称 的 角色 
DROP ROLE role_name 删除 拥有 指定 名 称 的 角色 


GRANT ROLE role_name TO GROUP group_name 
REVOKE ROLE role_name FROM GROUP group_name 
GRANT privilege ON object TO ROLE role_name 


GRANT privilege ON object TO ROLE role_name WITH 
GRANT OPTION 


REVOKE privilege ON object FROM ROLE role_name 
SET ROLE role_name 

SET ROLE ALL 

SET ROLE NONE 

SHOW ROLES 

SHOW CURRENT ROLES 

SHOW ROLE GRANT GROUP group_name 

SHOW GRANT ROLE role_name 


SHOW GRANT ROLE role_name ON object object_name 


分 配 指定 角色 到 指定 的 组 

从 指定 的 组 移出 指定 角色 

将 对 某 指定 对 象 的 权限 分 配给 指定 角色 

将 对 某 指 定 对 象 的 权限 分 配给 指定 角色 并 允许 该 角 
色 获 取 更 多 该 对 象 的 权限 

取消 指定 角色 的 对 指定 对 象 的 权限 

为 当前 会 话 设置 指定 角色 

为 当前 会 话 启 用 (用 户 能 访问 的 ) 所 有 角色 
禁用 当前 会 话 的 所 有 角色 

列 出 数据 库 中 的 所 有 角色 

显示 当前 会 话 启用 的 所 有 角色 
显示 指定 组 的 所 有 角色 
显示 指定 角色 的 所 有 许可 权限 
显示 指定 角色 关于 指定 对 象 的 所 有 许可 权限 
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表 7-11 提供 了 多 种 语法 的 列表 ， 一 个 处 于 工作 状态 中 的 示例 能 保证 看 到 这 些 行 为 〈 示 例 
7-14). 


示例 7-14 Sentry SQL 的 使 用 示例 


# Authenticated as the hive user, which is a member of a group listed in 
# sentry.service.admin.group and accessing HiveServer2 
# via the beeline CLI 


# Create the role for hive administrators 
0: jdbc:hive2://server1.example.com:100> CREATE ROLE hive admin; 
No rows affected (0.852 seconds) 


# Grant the hive administrator role to the sqladmin group 
0: jdbc:hive2://serveri.example.com:100» GRANT ROLE hive admin TO GROUP sqLladmin; 
No rows affected (0.305 seconds) 


4 Grant server-wide permissions to the hive admin role 

0: jdbc:hive2://serveri.example.com:100» GRANT ALL ON SERVER serveri 
TO ROLE hive admin; 

No rows affected (0.339 seconds) 


# Show all of the roles in the Sentry database 
0: jdbc:hive2://serveri.example.com:100» SHOW ROLES; 


+------------- 十 
| role | 
+------------- 十 
| hive admin | 
+------------- 十 


1 row selected (0.63 seconds) 


# Show all the privileges that the hive_admin role has access to 
# (some columns omitted for brevity) 
0 


+----------- +----------------- +----------------- +------------ +--------------- + 
| database | principal_name | principal_type | privilege | grant_option | 
+----------- +----------------- +----------------- +------------ +--------------- + 
| * | hive_admin | ROLE | * | false | 
+----------- +----------------- +----------------- +------------ +--------------- + 
+---------- 十 
| grantor | 
+---------- + 
| hive | 
+---------- 十 


1 row selected (0.5 seconds) 


# Show all the roles that the sqladmin is a part of 
0: jdbc:hive2://server1.example.com:100> SHOW ROLE GRANT GROUP sqladmin; 


+------------- +--------------- +------------- +---------- 十 
| role | grant_option | grant_time | grantor | 
+------------- +--------------- +------------- +---------- + 
| hive_admin | false | | hive | 
+------------- +--------------- +------------- +---------- 十 


1 row selected (0.5 seconds) 
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# Remove all of the roles for the current user session 
0: jdbc:hive2://serveri.example.com:100» SET ROLE NONE; 
No rows affected (0.2 seconds) 


# Show list of current roles 
0: jdbc:hive2://serveri.example.com» SHOW CURRENT ROLES; 


No rows selected (0.305 seconds) 


# Verify that no roles yields no access 
0: jdbc:hive2://serveri.example.com:100» SHOW TABLES; 


+----------- 十 
| tab_name | 
+----------- 十 
+----------- 十 


0: jdbc:hive2://serveri.example.com:100» SELECT COUNT(*) FROM sample 07; 
Error: Error while compiling statement: 
FAILED: SemanticException No valid privileges (state-42000,code-40000) 


4 Set the current role to the hive admin role 
0: jdbc:hive2://server1.example.com:100> SET ROLE hive admin; 
No rows affected (0.176 seconds) 


# Show list of current roles 
0: jdbc:hive2://server1.example.com:100> SHOW CURRENT ROLES; 


1 row selected (0.404 seconds) 


4 Execute commands that are permitted 
0: jdbc:hive2://serveri.example.com:100» SHOW TABLES; 


+------------ + 
| tab name | 
+------------ 十 
| sample 07 | 
| sample 08 | 
+------------ 十 


2 rows selected (0.536 seconds) 
0: jdbc:hive2://serveri.example.com:100» SELECT COUNT(*) FROM sample 07; 


1 row selected (20.811 seconds) 








使 用 WITH GRANT OPTION 能 大 幅 减轻 全 局 SQL 管理 员 的 负担 。 通 用 的 做 法 是 ， 
创建 一 个 指定 业务 范围 的 Hive 数据 库 ， 并 将 管理 员 权限 分 配给 一 个 数据 库 
专用 的 admin 角色 。 这 样 指定 业务 范围 后 ， 就 有 一 定 灵活 度 管理 它们 拥有 的 
数据 的 权限 。 要 确定 某 角 色 是 否 有 这 个 选项 ， 可 以 用 SHOW GRANT ROLE role. 


name 命令 查看 列 的 grant_option。 



































示例 7-14 中 ,命令 由 HiveServer2 的 beeline CLI 执 行 ， 但 它们 也 可 以 使 用 impala-shell 
运行 。 这 两 个 组 件 使 用 了 同样 的 Sentry 服务 ， 因 而 具有 同样 的 Sentry 策略 ， 所 以 从 其 中 一 
个 组 件 进行 的 修改 会 立刻 在 另 一 个 组 件 中 反映 出 来 。Sentry 授权 决策 不 会 被 独立 的 组 件 缓 
存 ， 这 是 从 安全 的 后 果 考 虑 的 。 


7.7.2 SQL 策略 文件 


使 用 为 SQL 组 件 提供 Sentry 服务 的 Sentry 部 署 方 式 时 ， 策 略 管理 是 熟悉 且 简 洁 易 懂 的 ， 
而 使 用 传统 的 基于 策略 文件 的 实现 则 并 非 如 些 。 启 用 Sentry 的 组 件 需 要 拥有 对 策略 文件 
的 读 权 限 。 在 Hive 和 Impala 中 使 用 策略 文件 时 ， 可 以 通过 使 hive 组 包含 fe 组， 并 且 确 
f hive 和 impala 用 户 都 是 该 组 成 员 的 方式 实现 。 策 略 文件 本 身 既 可 以 放 在 本 地 文件 系统 ， 
也 可 以 放 在 HDFS 中 。 对 于 前 者 ， 文 件 需要 存储 做 出 授权 决策 的 组 件 被 部 署 的 地 方 。 例 
如 ，Hive 启用 Sentry 时 ， 本 地 策略 文件 需要 存储 在 运行 有 HiveServer2 守护 进程 的 机 器 上 。 


为 了 利用 HDFS 同步 复制 机 制 带 来 的 元 余 和 高 可 用 性 ， 强 烈 推 荐 在 HDFS 
中 指定 一 个 位 置 存 储 策略 文件 。 因 为 每 一 个 用 户 操作 都 需要 读 取 策 略 文件 ， 
明智 的 做 法 是 增加 该 文件 的 副本 ， 使 得 读 取 它 的 组 件 能 够 从 许多 不 同 的 节 
点 进行 检索 。 这 可 以 通过 hdfs dfs -setrep M /user/hive/sentry/sentry- 
provider.ini 实现 ， 此 处 的 是 所 需 的 副本 数 。 策 略 文件 很 小 ， 所 以 将 副本 
的 数量 设 为 集群 中 DataNode 的 数量 是 完全 可 行 的 。 







































































策略 文件 的 格式 遵守 典型 的 ini 文件 格式 ， 带 有 被 中 括号 标识 的 配置 段 和 独立 的 键 值 对 配 
置 部 分 。 示 例 7-15 展示 了 适用 于 Hive 和 Impala 的 Sentry 样 例 配 置 文件 。 





示例 7-15 SQL sentry-provider.ini 


[databases] 
product = hdfs://nameservice1/user/hive/sentry/product.ini 


[groups] 

admins - admin role, tmp access 
analysts - analyst role, tmp access 
developers = developer role, tmp access 
etl - etl role, tmp access 


[roles] 
# uri accesses 


tmp access = server=server1->uri=hdfs: //nameservice1/tmp 


# default database accesses 
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analyst role = server=server1->db=default->table=* ->action=select 

developer role = server=server1->db=default 

etl_role = server=server1->db=default->table=*->action=insert, \ 
server=server1->db=defauLt->table=* ->action=select 


# administrative role 
admin role = server=server1 


示例 7-15 中 的 策略 文件 做 了 很 多 事 ， 可 能 并 不 能 一 眼 就 看 出 它 定 义 了 什么 。 策 略 文件 的 第 
一 段 是 数据 库 。 本 段 列 出 了 所 有 数据 库 ， 以 及 为 了 确保 对 它们 的 安全 访问 所 使 用 的 相应 策 
略 文件 。 每 个 数据 库 不 会 强制 要 求 拥有 隔离 的 配置 文件 。 然 而 ， 将 配置 文件 隔离 能 带 来 以 
下 好 处 : 


。 能 够 进行 版 本 跟踪 ， 以 轻易 区 分 哪个 数据 库 受 到 策略 变化 的 影响 以 及 受 影响 的 时 间 ， 

。 能 以 单个 数据 库 的 粒度 进行 授权 管理 控制 ; 

。 某 个 数据 库 策 略 文件 的 错误 配置 不 会 影响 主 策略 文件 sentry-provider.ini 或 其 他 数据 

库 策 略 文件 ; 

。 能 够 通过 改变 HDFS 中 对 策略 文件 的 访问 权 轻 松 禁 用 对 整个 数据 库 的 访问 ， 而 不 用 改动 
策略 文件 本 身 的 内 容 。 

策略 文件 的 第 二 段 是 组 。 本 段 提供 了 组 和 它们 被 分 配 到 的 角色 之 间 的 映射 ， 语 法 是 group= 

role。 正 如 之 前 讨论 过 的 ， 组 来自 两 个 地 方 : 来 源 于 Hadoop 的 组 ， 或 者 是 本 地 专门 为 

Sentry 配置 的 组 。 示 例 7-15 中 没有 定义 本 地 配置 的 组 ， 因 为 早先 示例 7-1 中 的 sentry- 

site.xml 被 配置 为 HadoopGroupResourceAuthorizationProvider。 以 下 是 关于 策略 文件 中 组 

配置 段 的 几 个 要 素 : 


。 给 定 组 能 够 分 配给 许多 角色 ， 用 逗号 隔 开 ， 

。 组 配置 段 中 的 条 目 是 从 上 向 下 读 的 ， 从 而 使 得 同 组 中 的 重复 条 目 能 够 覆盖 任何 先前 的 
AA; 

。 组 名 都 是 全 局 的 ， 无 论 它 们 是 在 本 地 定义 的 还 是 由 Hadoop 提供 的 ， 

。 角色 名 是 本 地 的 ， 分 配给 一 个 组 的 角色 名 仅 适 用 于 配置 它 的 那个 文件 。 


策略 文件 的 最 后 一 段 是 角色 。 这 里 定义 安全 策略 的 主要 部 分 。 角 色 配 置 的 语法 是 role= 
permisston。 配 置 的 许可 部 分 看 起 来 有 些 奇怪 ， 因 为 这 部 分 也 是 key=value 形式 的 语法 ， 但 
通过 每 个 键 值 对 配置 之 间 的 箭头 实现 了 粒度 更 精确 的 许可 定义 。 这 可 以 通过 admin_role 权 
限 的 定义 证 明 。 该 角色 被 授予 server 级 别 的 全 部 访问 权限 。 下 一 粒度 级 别 是 数据 库 级 ， 或 
db 2%, developer role 的 权限 定义 授予 了 访问 默认 数据 库 的 全 部 权限 。 这 之 后 的 下 一 级 别 是 
table 级 。 该 例 展 示 了 策略 文件 的 另 一 个 特性 一 一 它 支 持 使 用 通配符 选项 指 代 “任意 ” 表 。 


通配符 仅 用 于 代表 任意 值 。 通 过 部 分 名 称 匹 配 引 用 数据 库 表 时 ， 它 们 不 能 用 作 引 用 的 开头 
和 结尾 。 这 看 似 是 对 通配符 实现 的 一 种 限制 ， 但 用 户 应 牢记 ， 这 是 在 制定 安全 策略 。 使 用 
通配符 进行 部 分 名 称 匹 配 有 可 能 会 意外 地 将 特权 授予 非 授权 用 户 。 想 象 一 下 这 样 的 场景 ， 
宾夕法尼亚 州 的 一 组 开发 者 用 户 被 授权 能 够 访问 任何 名 称 是 pa 的 表 ， 但 稍 后 人 力 资源 部 
的 用 户 开始 使 用 这 个 集群 ， 并 建立 了 一 个 名 为 payroll 的 表 ， 该 表 包 含 所 有 公司 雇员 的 工资 
A, ME, 宾夕法尼亚 的 开发 者 组 无 意 中 能 够 访问 保密 信息 了。 因此， 在 安全 策略 中 使 用 
通配符 时 ， 应 当 格外 小 心 。 
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操作 行为 属于 权限 最 高 级 粒度 的 角色 定义 的 上 下 文 内 。Hive 和 Impala 的 表 的 上 下 文中 ， 


仅 支持 select Fil 


insert 操作 。 这 些 操作 是 完全 互 斥 的 。 如 果 一 个 角色 对 一 个 表 既 打算 进 


fT select 操作 ， 也 打算 进行 insert 操作 ， 那 么 需要 获得 这 两 种 操作 的 许可 。 组 的 配置 段 中 ， 
多 项 权限 能 够 被 分 配给 一 个 角色 。 为 了 实现 这 个 目的 ， 可 以 简单 地 将 它们 用 逗号 隔 开 。 为 
了 增加 可 读 性 ， 可 使 用 反 斜 杠 进行 权限 定义 的 换行 连接 ， 如 示例 7-15 中 的 etl role 所 示 。 
角色 有 段 的 最 后 一 部 分 讨论 了 URI 的 概念 。 示 例 7-15 展示 了 tmp access 角色 的 一 个 URI Uj 
问 许 可 。 该 许可 允许 用 户 做 两 件 事 : 为 本 处 数据 创建 外 部 表 ， 从 其 有 权限 访问 的 其 他 本 地 








表 导 出 数据 。 




















默认 的 URI 访 问 只 能 在 sentry-provider.int 中 被 指定 ， 而 不 能 在 每 个 数 
据 库 各 自 的 策略 文件 中 被 指定 。 进 行 限制 的 原因 是 ， 单 独 的 管理 员 会 维护 
一 个 数据 库 策 略 文件 ， 但 不 会 对 其 他 策略 文件 也 进行 维护 管理 。 如 果 管 理 
员 能 够 在 策略 文件 中 定义 URI 访问 控制 ， 他 们 就 可 以 允许 自己 或 其 他 任何 
























































人 访问 HDFS 中 对 hive 用 户 通过 外 部 表 可 读 的 任意 位 置 。 如 果 这 种 行为 
需要 被 重 写 ， 则 应 当 在 HiveServer2 中 对 Java 配置 选项 sentry.allow.uri. 
db.policyfile=true 进行 配置 。 该 配置 应 该 仅 能 在 所 有 管理 员 对 所 有 Sentry 
策略 文件 都 具有 拥有 同样 的 访问 权 的 情况 下 使 用 。 


7.7.3 Solr 

















策略 文件 


Hive FH Impala 可 以 通过 SQL 语法 使 用 Sentry 服务 和 管理 策略 ， 而 Solr 还 在 使 用 策略 文件 


的 方法 。 策 略 文人 











F 的 格式 类 似 于 SQL 中 相应 的 部 分 ， 只 是 有 几 处 变化 。 不 同 于 SQL 组 件 








那样 在 数据 库 和 表 上 操作 ，Solr 授权 是 在 集合 上 操作 的 。 同 样 地 ，Solr 的 特权 不 仿 SELECT 
和 INSERT， 而 使 用 Query 和 Update 代替 。Solr 特权 可 以 被 设 为 Al， 通 过 星 号 (*) 实现 。 


示例 7-16 展示 了 一 个 与 SQL 示例 相似 的 设计 。 在 组 配置 段 ， 组 被 赋值 为 角色 ;在 角色 配 
置 段 ， 角 色 被 赋值 为 特权 。analyst_role 提供 了 查询 customer logs 集合 的 权限 ，etl_role 
提供 了 更 新 它 的 权限 ，developer_role 提供 了 访问 它 的 所 有 权限 。 最 后 ，admin_role 拥有 
针对 admin 集合 的 所 有 权限 。 








示例 7-16 Solr sentry-provider.ini 


[groups] 


admins = admin_role 
analysts = analyst_role 


developers = 


developer_role 


etl = etl_role 


[roles] 
analyst_role 


= collection=customer_logs->action=Query 


developer_role = collection=customer_logs->action=* 
etl_role = collection=customer_logs->action=Update 


# administrative role 


admin_role = 


collection=admin->action=* 
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应 当 指出 ， 虽 然 SQL 策略 文件 允许 每 个 数据 库 拥 有 独立 的 策略 文件 ， 但 Solr 却 不 允许 这 样 
做 。 这 意味 着 Solr 策略 管理 员 在 修改 策略 时 需要 格外 当心 ， 因 为 就 像 SQL 策略 文件 那样 ， 
一 个 语法 错误 会 使 整个 策略 文件 失效 ， 从 而 无 意 间 导 致 所 有 数据 库 都 拒绝 访问 。 一 个 对 付 
拼写 错误 和 语法 错误 的 好 办 法 是 ， 使 用 config-tool 验证 策略 文件 ， 这 正 是 下 一 节 要 讲 的 。 


7.7.4 策略 文件 的 验证 和 校 验 


既然 Sentry 一 开始 被 设计 为 使 用 纯 文 本 格式 的 策略 文件 ， 那 么 管理 员 显 然 需要 某 种 校 验 工 
有 具 ， 在 文件 生效 之 前 对 其 进行 基本 的 合理 性 检查 。Sentry 附带 了 一 个 名 为 sentry 的 二 进 制 
程序 (这 名 称 真是 毫 无 新 意 ) ， 它 为 策略 文件 的 实现 提供 了 一 个 重要 功能 : config-tool fy 

该 命令 不 仅 允许 管理 员 检 查 策略 文件 中 的 错误 ， 还 提供 了 一 个 针对 给 定 用 户 的 特权 验 
证 机 制 。 示例 7-17 展示 了 对 策略 文件 的 校 验 ， 其 中 第 一 个 策略 文件 没有 错误 ， 第 二 个 有 一 
处 拼写 错误 (server 被 误 拼 为 sever) 。 
























































示例 7-17 Sentry config-tool 校 验 


[root@server1 ~]# sentry --hive-config /etc/hive/conf --command config-tool 
-s file:///etc/sentry/sentry-site.xml -i file:///etc/sentry/sentry-provider.ini -v 
Using hive-conf-dir /etc/hive/conf 
Configuration: 
Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0. jar 
Hive config: file: /etc/hive/conf/hive-site.xml 
Sentry config: file:/etc/sentry/sentry-site.xml 
Sentry Policy: file:///etc/sentry/sentry-provider.ini 
Sentry server: server1 
No errors found in the policy file 
[root@server1 ~]# sentry --hive-config /etc/hive/conf --command config-tool 
-s file:///etc/sentry/sentry-site.xml -i file:///etc/sentry/sentry-provider2.ini -v 
Using hive-conf-dir /etc/hive/conf 
Configuration: 
Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0.jar 
Hive config: file:/etc/hive/conf/hive-site.xml 
Sentry config: file:/etc/sentry/sentry-site.xml 
Sentry Policy: file:///etc/sentry/sentry-provider2.ini 
Sentry server: Server1 
*** Found configuration problems *** 
ERROR: Error processing file file:/etc/sentry/sentry-provider2.ini 
No authorizable found for sever=server1 
ERROR: Failed to process global policy file 
file:/etc/sentry/sentry-provider2.ini 
Sentry tool reported Errors: 
org.apache.sentry.core.common.SentryConfigurationException: 
at org.apache.sentry.provider.file.SimpleFileProviderBackend. 
validatePolicy(SimpleFileProviderBackend. java: 198) 
at org.apache.sentry.policy.db.SimpleDBPolicyEngine. 
validatePolicy(SimpleDBPolicyEngine.;java:87) 
at org.apache.sentry.provider.common.ResourceAuthorizationProvider. 
validateResource(ResourceAuthorizationProvider.java:170) 
at org.apache.sentry.binding.hive.authz.SentryConfigTool. 
validatePolicy(SentryConfigTool.;java:247) 
at org.apache.sentry.binding.hive.authz. 
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SentryConfigTool$CommandImpl.run(SentryConfigTool.java:638) 

at org.apache.sentry.SentryMain.main(SentryMain. java:94) 

at sun.reflect.NativeMethodAccessorImpl.invokeO(Native Method) 

at sun.reflect.NativeMethodAccessorImpl. 

invoke(NativeMethodAccessorImpl. java:57) 

at sun.reflect.DelegatingMethodAccessorImpl. 

invoke(DelegatingMethodAccessorImpl. java:43) 

at java.lang.reflect.Method.invoke(Method. java:606) 

at org.apache.hadoop.util.RunJar.main(RunJar.java:212 
[root@server1 ~]# 


config-tool 提供 的 另 一 个 强大 功能 是 验证 用 户 的 特权 。 该 功能 可 以 通过 列 出 指定 用 户 的 
所 有 权限 实现 ， 也 可 以 更 具体 地 通过 测试 指定 用 户 能 否 被 授权 执行 某 次 查询 实现 。 示 例 
7-18 展示 了 这 些 功 能 的 使 用 。 





示例 7-18 Sentry config-tool 验证 


[root@server1 ~]# sentry --hive-config /etc/hive/conf --command config-tool V 
-s file:///etc/sentry/sentry-site.xml \ 

-i file:///etc/sentry/sentry-provider.ini -l -u bob 

Using hive-conf-dir /etc/hive/conf 

Configuration: 

Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0.jar 

Hive config: file:/etc/hive/conf/hive-site.xml 

Sentry config: file:/etc/sentry/sentry-site.xml 

Sentry Policy: file:///etc/sentry/sentry-provider.ini 

Sentry server: Server1 

Available privileges for user bob: 

server=server1 
server=server1->uri=hdfs://server1.example.com:8020/tmp 

[root@server1 ~]# sentry --hive-config /etc/hive/conf --command config-tool \ 
-s file:///etc/sentry/sentry-site.xml \ 

-i file:///etc/sentry/sentry-provider.ini -l -u alice 

Using hive-conf-dir /etc/hive/conf 

Configuration: 

Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0.jar 

Hive config: file:/etc/hive/conf/hive-site.xml 

Sentry config: file:/etc/sentry/sentry-site.xml 

Sentry Policy: file:///etc/sentry/sentry-provider.ini 

Sentry server: Server1 

Available privileges for user alice: 

*** No permissions available *** 

[root@server1 ~]# sentry --hive-config /etc/hive/conf --command config-tool 
-s file:///etc/sentry/sentry-site.xml -i file:///etc/sentry/sentry-provider.ini 
-u bob -e "select * from sample 08" 

Using hive-conf-dir /etc/hive/conf 

Configuration: 

Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0.jar 

Hive config: file:/etc/hive/conf/hive-site.xml 

Sentry config: file:/etc/sentry/sentry-site.xml 

Sentry Policy: file:///etc/sentry/sentry-provider.ini 

Sentry server: Server1 

User bob has privileges to run the query 

[root@server1 ~]# sentry --hive-config /etc/hive/conf --command config-tool 
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-s file:///etc/sentry/sentry-site.xml -i file:///etc/sentry/sentry-provider.ini 
-u alice -e "select * from sample_08" 
Using hive-conf-dir /etc/hive/conf 
Configuration: 
Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0. jar 
Hive config: file: /etc/hive/conf/hive-site.xml 
Sentry config: file: /etc/sentry/sentry-site.xml 
Sentry Policy: file:///etc/sentry/sentry-provider.ini 
Sentry server: Server1 
FAILED: SemanticException No valid privileges 
*** Missing privileges for user alice: 
server=server1->db=defauLt->table=sample_08->action=select 
User alice does NOT have privileges to run the query 
Sentry tool reported Errors: Compilation error: FAILED: 
SemanticException No valid privileges 
[root@server1 ~]# 


7.7.5 从 策略 文件 迁移 


Sentry 服务 被 添加 入 项 目 时 ， 还 有 一 个 有 用 的 迁移 工具 也 被 同时 加 入 。 该 工具 使 6 管理 员 
能 够 从 已 存在 的 文件 向 Sentry 服务 后 端 数据 库 导 入 策略 。 这 缓解 了 需要 为 每 一 条 规则 导出 
SQL 语法 ， 并 手动 将 它们 添加 进 数 据 库 的 痛苦 。 该 迁移 工具 是 config-tool 的 功能 增强 ， 
最 后 一 节 将 进行 讲解 。 示 例 7-19 展示 了 该 工具 的 用 法 。 


示例 7-19 Sentry 策略 导入 工具 


[root@server1 ~]# sentry --command config-tool --import \ 
-i file:///etc/sentry/sentry-provider.ini 

Using hive-conf-dir /etc/hive/conf/ 

Configuration: 

Sentry package jar: file:/var/lib/sentry/sentry-binding-hive-1.4.0. jar 
Hive config: file:/etc/hive/conf/hive-site.xml 

Sentry config: file:///etc/sentry/sentry-site.xml 
Sentry Policy: file:///etc/sentry/sentry-provider.ini 
Sentry server: serverl 

CREATE ROLE analyst role; 

GRANT ROLE analyst role TO GROUP analysts; 

# server-serveri 

GRANT SELECT ON DATABASE default TO ROLE analyst role; 
CREATE ROLE admin role; 

CREATE ROLE developer role; 

CREATE ROLE etl role; 

GRANT ROLE admin role TO GROUP admins; 

GRANT ALL ON SERVER server1 TO ROLE admin role; 

GRANT ROLE developer role TO GROUP developers; 

# server-serveri 

GRANT ALL ON DATABASE default TO ROLE developer role; 
GRANT ROLE etl role TO GROUP etl; 

# server=server1 

GRANT INSERT ON DATABASE default TO ROLE etl_role; 

# server-serveri 

GRANT SELECT ON DATABASE default TO ROLE etl_role; 
[root@server1 ~]# 
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7.8 小结 


从 概念 上 讲 ，Sentry UL iE. ER PASSE RTEDERIH, An DE. RUE Sentry 是 Hadoop 
生态 系统 中 相对 较 新 的 组 件 之 一 ， 它 依然 很 快 成 为 Hadoop 安全 中 不 可 分 割 的 一 部 分 。 
Sentry 在 很 短 的 一 段 时 间 内 发 生 了 迅速 的 演变 ， 预 计 其 他 生态 系统 组 件 也 会 将 Sentry 集 
成 ， 以 便 通 过 统一 的 方式 提供 强 有 力 的 授权 控制 。 

我 们 已 经 顺利 结束 了 关于 验证 和 授权 的 庞大 主题 ， 下 面 看 看 审计 ， 并 理解 用 户 活动 在 集群 
中 的 意义 。 
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审计 





目前 为 止 ， 我们 已 经 介绍 了 如 何 恰当 地 标识 和 验证 用 户 和 服务 的 身份 ， 也 阐述 了 怎样 进 
行 授权 控制 以 限制 用 户 和 服务 在 集群 中 的 行为 。 虽 然 这 些 各 式 各 样 的 控制 对 定义 和 强化 
Hadoop 集群 安全 模型 起 到 了 很 好 的 作用 ， 但 仍然 缺乏 安全 模型 的 一 个 关键 组 件 : 审计 。 审 
计 又 称 审 核 ， 是 追踪 集群 中 用 户 和 服务 行为 的 机 制 。 这 是 安全 问题 中 的 一 个 关键 部 分 。 因 
为 如 果 没 有 审计 ， 那 么 任何 人 都 可 能 察觉 不 到 安全 被 破坏 。 审 计 功 能 提供 对 发 生 事情 的 记 
录 以 完善 安全 模型 ， 可 以 被 用 在 以 下 几 个 方面 。 

主动 审计 
这 种 审计 与 其 他 警报 机 制 一 起 使 用 。 例 如 ， 若 一 个 用 户 试图 访问 集群 中 的 资源 并 被 拒 ， 
主动 审计 能 够 生成 一 封 邮件 发 送 给 安全 管理 员 ， 警 告 他 们 这 件 事情 的 发 生 。 

被 动 审计 
被 动 审计 是 指 那些 不 会 产生 某 些 警报 的 审计 。 这 通常 是 业务 的 最 低 要 求 ， 因 此 ， 指 定 的 
审计 员 和 安全 管理 员 可 以 通过 查询 审计 寻找 某 些 事件 。 例 如 ， 假 如 集群 中 存在 一 个 安全 
漏洞 ， 安 全 管理 员 能 够 通过 查询 审计 日 志 找 到 漏洞 被 利用 期 间 被 访问 的 那些 数据 。 

安全 合 规 
一 个 业务 可 能 需要 被 审计 ， 从 而 使 之 满足 内 部 合 规 性 或 法 律 合 规 性 。 这 是 最 常见 的 情 
Ul: 存储 在 HDFS 中 的 数据 包含 敏感 信息 ， 比 如 个 人 身份 信息 (PIT)、 信 用 卡号 和 银行 
账号 之 类 的 财务 信息 、 一 些 敏感 的 商业 信息 (工资 单 和 工资 财务 ) 等 。 

Hadoop 的 组 件 处 理 审计 的 方法 各 有 不 同 ， 这 取决 于 组 件 的 功能 。HDFS 和 HBase 这 类 组 件 

是 数据 存储 系统 ， 因 此 它们 的 可 审计 事件 集中 于 读 、 写 和 访问 数据 。 与 之 相反 ，MapReduce、 

Hive 和 Impala 这 类 组 件 是 查询 引擎 和 处 理 框架 ， 因 此 可 审计 事件 集中 于 终端 用 户 的 查询 和 

作业 。 后 面 几 小 节 将 深入 介绍 每 个 组 件 ， 并 从 审计 的 角度 阐述 与 组 件 的 典型 交互 。 
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8.1 HDFS 审 计 日 志 








HDFS 提供 两 种 不 同 的 审计 日 志 ， 以 达到 两 种 不 同 的 目的 。 第 一 种 日 志 是 hdfs-audit. log, 
用 于 对 一 般 用 户 活动 进行 审计 ， 俩 如 用 户 创建 新 文件 或 变 文件 权限 ”请 求 日 录 列表 等 



































第 二 种 日 志 是 SecurityAuth-hdfs.audit， 用 于 审计 服务 层面 的 授权 活动 。 这 些 日 志文 人 


T 





的 建立 涉及 对 log4j.category.SecurityLogger 以 及 1og4j . additivity.org.apache.hadoop. 





hdfs.server.namenode.FSNamesystem.audit HJE. IRAI 8-1 展示 了 此 过 程 。 


示例 8-1 HDFS log4j.properties 


# other logging settings omitted 

hdfs.audit.logger=${log. threshold} ,RFAAUDIT 

hdfs.audit.log.maxfilesize-256MB 

hdfs.audit.log.maxbackupindex-20 

log4j.logger.org.apache.hadoop.hdfs.server.namenode.FSNamesystem.audit- 
S{hdfs.audit. Logger} 


log4j.additivity.org.apache.hadoop.hdfs.server.namenode.FSNamesystem.audit-false 


log4j.appender .RFAAUDIT=org. apache. log4j.RollingFileAppender 
log4j.appender .RFAAUDIT.File=${log.dir}/hdfs-audit. log 

log4j.appender .RFAAUDIT. Layout=org. apache. log4j.PatternLayout 
log4j.appender.RFAAUDIT. Layout.ConversionPattern=%d{ISO8601} %p %c{2}: %m%n 
log4j.appender .RFAAUDIT.MaxFileSize=${hdfs.audit. log.maxfilesize} 
1log4j.appender .RFAAUDIT.MaxBackupIndex=${hdfs.audit.log.maxbackupindex} 
hadoop. security. Logger=INFO,RFAS 

hadoop. security. log.maxfilesize=256MB 

hadoop. security. log.maxbackupindex=20 
log4j.category.SecurityLogger=${hadoop.security. Logger } 
log4j.additivity.SecurityLogger-false 
hadoop.security.log.file-SecurityAuth-S$[user.name).audit 

log4j.appender .RFAS=org. apache. log4j.RollingFileAppender 

log4j.appender .RFAS.File=${log.dir}/${hadoop.security.log.file} 
log4j.appender .RFAS. Layout=org.apache. log4j.PatternLayout 

log4j.appender .RFAS. Layout. ConversionPattern=%d{ISO8601} %p %c: %m%n 
log4j.appender .RFAS.MaxFileSize=${hadoop.security.log.maxfilesize} 
log4j.appender .RFAS .MaxBackupIndex=${hadoop. security. log.maxbackupindex} 


那么 ， 一 个 可 审计 事件 出 现时 ， 到 底 发 生 了 什么 呢 ?” 对 于 这 部 分 示例 ， 先 进行 以 下 假设 : 


。 用 户 Alice 被 Kerberos 规则 alice@EXAMPLE.COM 识别 出 身份 ， 并 且 顺 利 地 使 用 kinit 2X 





得 一 个 有 效 的 票据 授予 票据 (TGT) ; 
* Alice 在 HDFS 的 主 目录 中 进行 了 显示 目录 列表 的 操作 ， 
* Alice 在 HDFS 主 目录 中 创建 了 一 个 名 为 test 的 空 文件 ; 
。 Alice 将 该 文件 的 权限 更 改 为 全 部 可 写 
。 Alice 试图 将 文件 从 主 目录 移 至 /user 路 径 。 





t 











示例 8-2 F, Alice 进行 了 一 些 在 HDFS 中 的 典型 操作 。 这 些 都 是 用 户 活动 事件 ， 所 以 检查 





hdfs-audit.Log， 以 查看 Alice 通过 HDFS 操作 留 下 的 痕迹 (示例 中 的 log 文件 已 经 处 理 


适合 阅读 )。 





REA 





示例 8-2 hdfs-auditlog 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS) 


18,251 INFO FSNamesystem.audit: allowed=true ugi=alice@EXAMPLE.COM 
ip=/10.1.1.1 cmd=getfileinfo src=/user/alice dst-null perm=null 
18,280 INFO FSNamesystem.audit: allowed=true ugi=alice@EXAMPLE.COM 
ip=/10.1.1.1 cmd-listStatus src-/user/alice dst-null perm=null 
32,058 INFO FSNamesystem.audit: allowed-true ugi-aliceQEXAMPLE. COM 
ip=/10.1.1.1 cmd=getfileinfo src-/user/alice/test dst-null perm-null 
32,073 INFO FSNamesystem.audit: allowed-true ugi-aliceQEXAMPLE. COM 
ip=/10.1.1.1 cmd=getfileinfo src-/user/alice dst-null perm=null 
32,096 INFO FSNamesystem.audit: allowed=true ugi=alice@EXAMPLE.COM 
ip=/10.1.1.1 cmd=create src=/user/alice/test dst=null 


perm=alice:alice:rw-r----- 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS) 


39,558 INFO FSNamesystem.audit: allowed=true ugi=alice@EXAMPLE.COM 
ip=/10.1.1.1 cmd=getfileinfo src=/user/alice/test dst-null perm-null 
39,587 INFO FSNamesystem.audit: allowed=true ugi-aliceQEXAMPLE. COM 
ip=/10.1.1.1 cmd=setPermission src-/user/alice/test dst-null 


perm=alice: alice: rw-rw-rw- 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS ) 


2014-03-11 23:50: 


(auth: KERBEROS) 


2014-03-11 23:50: 


(auth: KERBEROS) 


如 上 所 示 ， 审 计 日 志 显 示 了 Alice 进行 的 每 一 项 操作 的 相关 信息 。 她 进行 的 每 一 项 操作 首 


47,157 INFO FSNamesystem.audit: allowed=true ugi=alice@EXAMPLE.COM 
ip=/10.1.1.1 cmd=getfileinfo src=/user dst=null perm=null 

47,185 INFO FSNamesystem.audit: allowed-true ugi-aliceQEXAMPLE. COM 
ip=/10.1.1.1 cmd=getfileinfo src-/user/alice/test dst-null perm-null 
47,187 INFO FSNamesystem.audit: allowed=true ugi-aliceQEXAMPLE. COM 
ip=/10.1.1.1 cmd=getfileinfo src-/user/test dst-null perm-null 
47,190 INFO FSNamesystem.audit: allowed-false ugi-aliceQEXAMPLE.COM 
ip-/10.1.1.1 cmd=rename src-/user/alice/test dst-/user/test perm-nul 





先 都 需要 一 个 getfileinfo 命令 ， 接 着 是 她 所 执行 的 多 种 操作 内 容 (显示 状态 、 创 建 、 设 


置 权 限 和 重 命名 )。 本 日 志 中 ， 产生 事件 的 用 户 、 


Ht 


事件 发 生 的 时 间 、 执 行 操作 的 IP 地 址 以 








及 多 种 其 他 信息 都 很 清楚 。 另 外 一 个 被 记录 的 重要 信息 是 ，Alice 最 近 一 次 试图 进行 的 操 
作 是 将 文件 从 她 的 主 目录 移出 至 一 个 她 无 权 访问 的 位 置 ， 且 该 操作 被 拒绝 。 


8.2 MapReduce 审 计 日 志 





MapReduce 审计 与 HDFS 审计 很 相似 ， 包 括 两 个 目的 相近 gi H 日 志 。 第 一 个 日 志文 们 
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mapredaudit.log 用 于 审计 诸如 作业 提交 之 类 的 用 户 活动 。 HER SecurityAuth- 
mapred.audit 用 于 审计 服务 级 授权 活动 ， 就 像 HDFS 日 dem 这 些 文件 的 1og4j 参数 
需要 进行 设 定 ， 用 于 设 定 这 些 参 数 的 钧 子 是 Log4j.category.SecurityLogger 和 log4j. 
logger.org.apache.hadoop.mapred.AuditLogger, ， 如 示例 8-3 所 示 。 


He 





示例 8-3 MapReduce log4j.properties 


# other logging settings omitted 
hadoop.security.logger-INFO,RFAS 
hadoop.security.log.maxfilesize-256MB 
hadoop.security.log.maxbackupindex-20 
log4j.category.SecurityLogger-S([hadoop.security.logger) 


log4j.additivity. 


SecurityLogger-false 


hadoop.security.log.file-SecurityAuth-S[user.name).audit 
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log4j.appender .RFAS=org.apache.log4j.RollingFileAppender 

log4j.appender .RFAS.File=${log.dir}/${hadoop.security.log.file} 
log4j.appender .RFAS. Layout=org.apache. log4j.PatternLayout 

log4j.appender .RFAS. Layout. ConversionPattern=%d{ISO8601} %p %c: %m%n 
log4j.appender .RFAS.MaxFileSize=${hadoop.security.log.maxfilesize} 
log4j.appender .RFAS.MaxBackupIndex=${hadoop. security. Log.maxbackupindex} 
mapred.audit. Logger=${log. threshold} ,RFAAUDIT 

mapred.audit. log.maxfilesize=256MB 

mapred.audit. log.maxbackupindex=20 

log4j. logger .org.apache.hadoop.mapred.AuditLogger=${mapred.audit. logger} 
log4j.additivity.org.apache.hadoop.mapred.AuditLogger-false 
log4j.appender .RFAAUDIT=org. apache. log4j.RollingFileAppender 
log4j.appender .RFAAUDIT.File=${log.dir}/mapred-audit. log 

log4j.appender .RFAAUDIT. Layout=org. apache. log4j.PatternLayout 
log4j.appender .RFAAUDIT. Layout. ConversionPattern=%d{ISO8601} %p %c{2}: %m%n 
log4j.appender .RFAAUDIT.MaxFileSize=${mapred. audit. log.maxfilesize} 
log4j.appender .RFAAUDIT .MaxBackupIndex=${mapred. audit. log.maxbackupindex} 


对 于 这 个 示例 ， 进 行 以 下 假设 : 

。 用 户 Bob 被 Kerberos 规则 bob@EXAMPLE.COM 识别 出 身份 ， 并 且 已 经 成 功 地 使 用 kinit 获 
得 一 个 有 效 的 TGT; 

。 没有 使 用 MapReduce 服务 级 授权 ， 

。 Bob 提交 了 一 个 MapReduce 作业 ， 

。 Bob 在 MapReduce 作业 结束 以 前 终止 了 它 。 


日 志 中 这 一 系列 操作 的 结果 如 示例 8-4 和 示例 8-5 所 示 。 














示例 8-4 mapred-audit.log 


2014-03-12 18:11:46,363 INFO mapred.AuditLogger: USER=bob IP=10.1.1.1 
OPERATION=SUBMIT_JOB TARGET=job_201403112320_0001 RESULT=SUCCESS 


示例 8-5 SecurityAuth-mapred.audit 


2014-03-12 18:46:25,200 INFO SecurityLogger.org.apache.hadoop.ipc.Server: 
Auth successful for bob@EXAMPLE.COM (auth:SIMPLE) 


2014-03-12 18:46:25,239 INFO SecurityLogger.org.apache.hadoop.security. 
authorize.ServiceAuthorizationManager: Authorization successful for 
bob@EXAMPLE.COM (auth:KERBEROS) for protocol=interface 

org.apache.hadoop.mapred.JobSubmissionProtocol 


2014-03-12 18:46:29,955 INFO SecurityLogger.org.apache.hadoop.ipc.Server: 
Auth successful for job 201403112320 0002 (auth:SIMPLE) 


2014-03-12 18:46:29,976 INFO SecurityLogger.org.apache.hadoop.security. 
authorize.ServiceAuthorizationManager: Authorization successful for 
job 201403112320 0002 (auth:TOKEN) for protocol-interface 
org.apache.hadoop.mapred.TaskUmbilicalProtocol 


...(more)... 





2014-03-12 18:47:11,598 INFO SecurityLogger.org.apache.hadoop.ipc.Server: 
Auth successful for bob@EXAMPLE.COM (auth: SIMPLE) 


2014-03-12 18:47:11,638 INFO SecurityLogger.org.apache.hadoop.security. 
authorize.ServiceAuthorizationManager: Authorization successful for 
bob@EXAMPLE.COM (auth:KERBEROS) for protocol=interface 
org.apache.hadoop.mapred.JobSubmissionProtocol 


示例 8-4 (ZEE BE. 用 户 Bob 执行 了 操作 SuBMIT_]J0B， 这 导致 ID Jj job 201403112320 0001 
的 MapReduce ee 正如 预期 的 那样 ， 其 他 相关 信息 包括 事件 发 生 的 时 间 日 期 以 及 了 P 
地 址 。 示 例 8-5 中 ， 情 况 有 所 不 同 。 第 一 个 条 目 显示 Bob 成 功 通过 JobTracker 的 验证 ， 第 二 
个 条 目 表 明 Bob 已 经 被 授权 提交 该 作业 。 接 下 来 的 两 个 事件 〈 为 了 简洁 起 见 ， IGI 
同事 件 已 被 删 去 ) 显示 了 作业 本 身 的 操作 。 有 趣 的 是 ，Bob 终止 正在 运行 的 作业 时 ， 出 现 的 
审计 事件 与 其 提交 该 作业 时 的 审计 事件 一 模 一 样 。 


8.3 YARN 审计 日 志 


YARN 审计 日 志 事 件 穿 插 在 守护 进程 的 日 志文 件 中 ， 然 而 它们 更 容易 辨识 ， 因 为 它们 的 类 
名 称 会 被 事件 记录 。 对 于 Resource Manager， 它 的 名 称 是 org.apache.hadoop. yarn. server. 
resourcemanager.RMAuditLogger; 对 于 Node Manager, Jill] 是 org.apache.hadoop. yarn.server. 
nodemanager .NMAuditLogger。 可 以 使 用 这 些 类 名 从 普通 的 应 用 程序 日 志 中 解析 审计 事件 。 
YARN 若 要 记录 审计 日 志 ， 需 要 对 logaj 参数 进行 设置 。 该 操作 的 钧 子 是 Log4j.category， 

SecurityLogger， 示 例 8-6 示范 了 如 何 进行 设置 。 
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示例 8-6 YARN log4j.properties 


# other logging settings omitted 

hadoop.security.logger-INFO,RFAS 
hadoop.security.log.maxfilesize-256MB 
hadoop.security.log.maxbackupindex-20 
log4j.category.SecurityLogger-S(hadoop.security.logger) 
log4j.additivity.SecurityLogger-false 
hadoop.security.log.file-SecurityAuth-S[user.name).audit 
log4j.appender.RFAS-org.apache.l0g4j.RollingFileAppender 
log4j.appender.RFAS.File-$[log.dir)/$[hadoop.security.log.file]) 
log4j.appender.RFAS.layout-org.apache.log4j.PatternLayout 
log4j.appender.RFAS.layout.ConversionPattern-*d[1S08601] %p %c: %m%n 
log4j.appender.RFAS.MaxFileSize-$[hadoop.security.log.maxfilesize] 
1log4j.appender .RFAS .MaxBackupIndex=${hadoop. security. log.maxbackupindex} 


本 例 中 ， 用 户 Alice 通过 YARN 提交 了 一 个 MapReduce 作业 ， 紧 接着 作业 开始 运行 。 示 例 
nun T 的 审计 事 
件 。 注 意 ， 这 里 为 了 简洁 起 见 而 省 略 了 重复 的 审计 类 名 ， 并 且 事 件 日 志 已 经 以 适合 阅读 。 


示例 8-7 YARN Resource Manager 审计 事件 


2014-12-27 12:49:35,182 INFO USER=alice IP=10.6.9.73 
OPERATION=Submit Application Request 





Jg. 
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TARGET-2ClientRMService RESULT=SUCCESS 
APPID-application 1419453547005 0001 

2014-12-27 12:49:43,598 INFO USER-alice OPERATION-AM Allocated Container 
TARGET-SchedulerApp RESULT-SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 000001 

2014-12-27 12:49:57,288 INFO USER=alice IP=10.6.9.75 OPERATION-Register App Master 
TARGET-ApplicationMasterService RESULT=SUCCESS APPID-application 1419453547005 0001 
APPATTEMPTID-appattempt 1419453547005 0001 000001 

2014-12-27 12:50:02,375 INFO USER-alice OPERATION-AM Allocated Container 
TARGET-SchedulerApp RESULT=SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 000002 

2014-12-27 12:50:02,376 INFO USER-alice OPERATION-AM Allocated Container 
TARGET-SchedulerApp RESULT-SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 000903 

2014-12-27 12:50:19,361 INFO USER-alice OPERATION-AM Released Container 
TARGET-SchedulerApp RESULT-SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 0000902 

2014-12-27 12:50:21,436 INFO USER-alice OPERATION-AM Released Container 
TARGET-SchedulerApp RESULT=SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 000903 

2014-12-27 12:50:27,954 INFO USER-alice OPERATION-AM Released Container 
TARGET-SchedulerApp RESULT-SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 000901 

2014-12-27 12:50:27,963 INFO USER=alice OPERATION-Application Finished - Succeeded 
TARGET-RMAppManager RESULT-SUCCESS APPID-application 1419453547005 0001 


示例 8-8 YARN Node Manager 审计 事件 


2014-12-27 12:49:43,956 INFO USER=alice IP=10.6.9.75 
OPERATION-Start Container Request TARGET-ContainerManageImpl RESULT=SUCCESS 
APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 0000901 

2014-12-27 12:50:27,105 INFO USER-alice OPERATION-Container Finished - Succeeded 
TARGET=ContainerImpl RESULT=SUCCESS APPID-application 1419453547005 0001 
CONTAINERID=container_1419453547005_0001_01_000001 

2014-12-27 12:50:27,984 INFO USER=alice IP=10.6.9.75 OPERATION=Stop Container Request 
TARGET=ContainerManageImpl RESULT-SUCCESS APPID-application 1419453547005 0001 
CONTAINERID-container 1419453547005 0001 01 000001 


YARN 的 众多 优点 之 一 是 ， 能 够 指定 资源 池 。 如 前 所 述 ， 资 源 池 可 以 进行 授权 控制 ， 从 而 
使 得 只 有 特定 的 用 户 和 组 才能 够 提交 给 特定 的 资源 池 。 接 下 来 的 示例 中 ，Bob 试图 向 Prod 
资源 池 提 交 数 据 ， 但 他 没有 权限 。 示 例 8-9 展示 了 这 种 情况 下 的 审计 日 志 。 再 次 强调 ， 为 
了 简洁 起 见 而 省 略 了 重复 的 审计 类 名 ， 并 且 日 志 已 经 处 理 以 适合 阅读 。 





示例 8-9 YARN Resource Manager 审计 事件 


2014-12-27 13:56:35,886 INFO USER=bob IP=10.6.9.73 
OPERATION-Submit Application Request TARGET=ClientRMService 
RESULT-SUCCESS APPID-application 1419705820412 0002 

2014-12-27 13:56:35,917 WARN USER-bob OPERATION-Application Finished - Failed 
TARGET-RMAppManager RESULT-FAILURE DESCRIPTION-App failed with state: FAILED 
PERMISSIONS-User bob cannot submit applications to queue root.prod 
APPID-application 1419705820412 0002 





8.4 Hive 审 计 日 志 





Hive 审计 与 YARN 相似 , 没有 专用 的 审计 日 志文 件 。 审 计 事 件 实际 发 生 在 Hive Metastore 











服务 日 志 内 部 ， 因 此 安全 管理 员 从 常规 应 用 的 日 志 事件 获取 相关 审计 信息 会 有 些 困 难 。 























然而 同 YARN 一 样 ， 可 以 使 用 审计 记录 的 类 名 辨识 审计 事件 。 其 他 Hive 组 件 一 一 
HiveServer2 没有 专用 的 审计 ， 但 仍然 能 从 服务 日 志 找 到 类 似 审计 的 信息 。 对 于 访 
假设 : 





。 用 户 Bob 被 Kerberos 规则 bob@EXAMPLE.COM 识别 出 身份 ， 并 且 已 经 成 功 地 使 用 kinit 
得 一 个 有 效 的 TGT; 

e Bob 使 用 beeline CLI 连接 至 HiveServer2; 

e Bob 首先 执行 show tables 命令 ， 以 列 出 默认 数据 库 中 的 表 ， 

。 然后 Bob 执行 select count(*) from sample_07， 以 统计 sample 07 表 中 的 记录 数 。 

这 些 操作 的 结果 如 示例 8-10 所 示 ， 该 例 已 经 调整 了 可 读 性 。 


示例 8-10 Hive Metastore 审计 事件 





























如 
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2014-03-29 17:13:18,778 INFO org.apache.hadoop.hive.metastore.HiveMetaStore. audit: 


ugi=bob ip=/10.1.1.1 cmd=get_database: default 


2014-03-29 17:13:18,782 INFO org.apache.hadoop.hive.metastore.HiveMetaStore. audit: 


ugi=bob ip=/10.1.1.1 cmd=get_tables: db=default pat=.* 


2014-03-29 17:13:37,110 INFO org.apache.hadoop.hive.metastore.HiveMetaStore. audit: 


ugi=bob ip=/10.1.1.1 cmd-get table : db-default tbl=sample_07 


看 看 示例 8-10 中 的 审计 事件 显示 的 一 些 内 容 。 首 先 ， 审 计 事件 本 身 由 org. apach 





e. 











hadoop.hive.metastore.HiveMetaStore.audit 标记 ， 这 使 从 日 志 搜 索 审 计 事 件 变 得 容易 
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一 些 。 其 次 ， 这 些 审计 事件 在 用 户 身份 识别 方面 与 之 前 见 过 的 审计 事件 有 着 细微 的 区 别 。 




















Hive 仅 显 示 用 户 名 ， 而 不 是 Kerberos UPN (User Principal Name) 全 名 。 每 个 审计 事 
中 ， 用 户 执行 的 操作 是 由 cmd 字段 标识 的 。 可 以 看 到 ，show tables 的 查询 生成 两 个 审 
































事件 : get database 和 get_tables。 用 于 统计 行 数 的 实际 SQL 查询 生成 了 一 个 审计 事件 ， 




















即 get_table。 与 其 他 组 件 中 见 过 的 审计 事件 一 样 ， 本 审计 事件 也 给 出 了 执行 操作 的 用 
IP 地 址 。 























8.5 Cloudera Impala 审 计 日 志 


Impala 审计 事件 被 Impala 守护 进程 (impalad) 记录 到 专用 的 审计 日 志 。 审 计 日 志 目 录 
置 由 标识 audit_event_log_dir 指定 ， 一 个 典型 的 选择 是 /var/log/impalad/audits, 








ft 
it 
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位 
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些 日 志文 件 到 达 由 指定 行 数 决定 的 一 定 大 小 后 ， 将 会 滚动 ， 文 件 大 小 由 标识 nax audit. 




















event log file size 设 定 ， 通 常 合 


的 例子 一 模 一 样 的 场景 假设 。 这 些 操 芷 的 结果 如 示例 8-11 所 示 。 





的 设 定 是 5000 行 。 对 于 Impala 的 例子 ， 做 出 与 Hive 





示例 8-11 Impala 守护 进程 的 审计 日 志 


{"1396114935263":{"query_id":"914b9eb1591546f0: ff4419eab4de439c" , 

"session id":"e643b5e102f653ec:94e0a3d4b3646ca3" , 

"start time":"2014-03-29 17:42:15.201945000", "authorization failure":false, 
"status" :"","user":"bob","impersonator":null," statement type":"SHOW TABLES", 
"network address":"::ffff:10.1.1.1:47569","sql statement":"show tables", 
"catalog objects":[]13) 


("1396115148996" : ("query. id":"97443eddd3c172fd:34fe3f37c84d6ea8" , 

"session id":"e643b5e102f653ec:94e0a3d4b3646ca3" , 

"start time":"2014-03-29 17:45:48.850540000" , "authorization failure":false, 
"status" :"","user":"bob","impersonator":null,"statement type":" QUERY", 
"network address":"::ffff:10.1.1.1:47569","sql statement": 

"select count(*) from sample 07","catalog objects": 
[("name":"default.sample 07","object type":"TABLE", "privilege": "SELECT" }]}} 

















示例 8-11 显示 出 ，Impala 的 审计 日 志 与 其 他 Hadoop 组 件 的 日 志 在 格式 上 截然 不 同 。 这 些 
审计 事件 以 JSON 格式 记录 ， 因 此 可 读 性 较 差 .但 借助 外 部 工具 可 以 轻松 使 用 这 些 数据 。 

一 个 审计 事件 展示 了 用 户 在 statement_type 字段 中 设 定 的 操作 类 型 ， 即 SHOW_TABLES。 
该 信息 也 能 用 于 sql statement 字段 ， 以 展示 Bob 进行 的 精确 查询 操作 。 第 二 个 审计 事件 
展示 了 查询 的 操作 类 型 。 


8.6 HBase 审 计 日 志 


HBase 日 志 将 审计 事件 记录 到 一 个 单独 的 日 志文 件 ， 可 以 在 相关 的 log4j.properties 文 从 
中 对 该 日 志文 件 进行 配置 。HBase 的 架构 是 : 客户 端 仅 与 负责 执行 指定 操作 的 特定 服务 器 

进行 交互 ， 因 此 审计 事件 在 整个 HBase 集群 中 都 有 分 布 。 例 如 ， 创 建 、 删 除 和 修改 表 的 操 
作 是 由 HBase Master 负责 的 ， 而 类 似 扫描 、 插 入 和 读 取 这 种 方法 是 指定 给 表 中 的 某 个 特定 
区 域 的 ， 所 以 由 RegionServer 记录 这 些 事件 。 


HBase 对 审计 事件 进行 记录 时 ， 需 要 对 log4j 参数 进行 设置 。 用 于 进行 该 设置 的 钓 子 为 
log4j.logger.SecurityLogger, ， 示 例 8-12 展示 了 如 何 进 行 设置 。 
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示例 8-12  HBase log4j.properties 


# other logging settings omitted 

log4j.logger.SecurityLogger-TRACE, RFAS 
log4j.additivity.SecurityLogger-false 
log4j.appender.RFASzorg.apache.109g4j.RollingFileAppender 
log4j.appender.RFAS.File-$[log.dirj/audit/SecurityAuth-hbase.audit 
log4j.appender .RFAS. Layout=org. apache. log4j.PatternLayout 
log4j.appender .RFAS. Layout. ConversionPattern=%d{ISO8601} %p %c: %m%n 
1log4j.appender .RFAS.MaxFileSize=${max.log.file.size} 

log4j.appender .RFAS .MaxBackupIndex=${max. log. file. backup.index} 


本 例 进 行 了 以 下 操作 : 
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。 HBase 超级 用 户 创 建 了 一 个 名 为 sample 的 表 ; 

。 HBase 超级 用 户 授予 用 户 Alice 对 sample 表 的 RW ( 读 写 ) 访问 权限 ， 
。 HBase 超级 用 户 授予 用 户 Bob 对 sample KAIR (i) 访问 权限 ; 

。 Alice 试图 创建 一 个 名 为 sample2 的 新 表 ， 但 被 拒绝 访问 ， 

。 Alice 向 sample 表 插 入 一 个 值 ; 
。 Alice 扫描 sample X; 

。 Bob 扫描 sample X; 

。 Bob 试图 向 sample 表 插 入 一 个 值 ， 但 被 拒绝 访问 。 


HBase 审计 能 够 缩小 到 一 个 特定 的 类 ， 即 SecurityLogger.org.apache.hadoop.hbase. 
security.access.AccessControLLer， 和 其 他 组 件 中 的 日 志 事 件 一 样 。 这 个 类 贯穿 于 各 类 日 
志 ， 但 为 了 简洁 起 见 ， 将 它 从 示例 8-13 和 8-14 中 略 去 。 同 样 ， 为 了 保证 可 读 性 ， 这 些 示 
例 的 格式 都 经 过 了 编辑 。 


示例 8-13 HBase master 的 审计 日 志 


2014-12-27 21:05:56,938 TRACE Access allowed for user hbase; reason: 
Global check allowed; remote address: /10.6.9.74; request: createTable; 
context: (user=hbase@EXAMPLE.COM, scope=sample, family=cf, action=CREATE) 

2014-12-27 21:06:09,484 TRACE Access allowed for user hbase; reason: 
Table permission granted; remote address: /10.6.9.74; 
request: getTableDescriptors; context: (user=hbase@EXAMPLE.COM, 
scope=sample, family=, action=ADMIN) 

2014-12-27 21:06:16,620 TRACE Access allowed for user hbase; reason: 

Table permission granted; remote address: /10.6.9.74; 
request: getTableDescriptors; context: (user=hbase@EXAMPLE.COM, 
scope=sample, family=, action=ADMIN) 

2014-12-27 21:07:02,102 TRACE Access denied for user alice; reason: 
Global check failed; remote address: /10.6.9.74; request: 
createTable; context: (user=alice@EXAMPLE.COM, scope-sample2, 
family=cf, action=CREATE) 


由 示例 8-13 可 知 ， 表 创建 的 时 间 被 清楚 地 记录 下 来 。 用 户 hbase 被 允许 一 一 而 Alice 被 拒 
绝 一 一 创建 一 个 表 。 此 外 ， 还 可 以 从 这 个 日 志文 件 中 看 出 ， 实 际 授 予 权限 的 行为 并 不 明 
显 。 当 该 操作 被 记录 为 一 个 ADMIN 操作 ， 并 且 与 这 个 表 有 同样 的 作用 域 ， 那 么 会 没有 任何 
标识 表明 该 表 权 限 被 授予 哪个 用 户 。 这 是 HBase 的 一 个 局 限 ， 很 可 能 在 将 来 的 版 本 中 得 到 
改善 。 
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示例 8-14 HBase region server 审计 日 志 


2014-12-27 21:07:15,411 TRACE Access allowed for user alice; reason: 
Table permission granted; remote address: /10.6.9.74; request: put; 
context: (user=alice@EXAMPLE.COM, scope-sample, 
family=cf:col1, action-WRITE) 

2014-12-27 21:07:18,705 TRACE Access allowed for user alice; reason: 
Table permission granted; remote address: /10.6.9.74; request: scan; 
context: (user=alice@EXAMPLE.COM, scope-sample, family=cf, action=READ) 

2014-12-27 21:07:47,263 TRACE Access allowed for user bob; reason: 

Table permission granted; remote address: /10.6.9.74; request: scan; 
context: (user=bob@EXAMPLE.COM, scope=sample, family=cf, action=READ) 
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2014-12-27 21:07:57,756 TRACE Access denied for user bob; reason: 
Failed qualifier check; remote address: /10.6.9.74; request: put; 
context: (user=bob@EXAMPLE.COM, scope=sample, family=cf:col1, action-WRITE) 





示例 8-14 F, Alice 和 Bob 尝试 进行 的 读 和 写 操 作 被 清楚 地 标识 
信息 、 列 族 、 列 以 及 这 项 操作 被 允许 或 拒绝 的 原因 。 


8.7 Accumulo 审 计 日 志 





来 。 它 提供 了 表 的 相关 


与 HBase 相似 ，Accumulo 可 以 被 配置 为 将 审计 事件 记录 到 一 个 单独 的 日 志文 件 。 由 于 不 
要 求 Accumulo 客户 端 在 每 次 访问 时 都 与 一 个 单一 、 集 中 式 的 服务 通信 ， 因 此 审计 日 志 分 
散 于 整个 集群 。 例 如 ， 用 户 创 建 、 删 除 或 修改 表 时 ， 操 作 会 被 Accumulo Master 记录 ， 而 























扫描 和 写 入 这 类 操作 则 会 被 实际 处 理 操作 的 TabletServer 记录 。 




















默认 的 Accumulo 配置 模板 是 将 审计 记录 关闭 的 。 用 户 可 以 在 log4j 配置 文件 auditLog.xml 
中 ， 将 审计 记录 的 日 志 级 别 设 为 INF0， 以 启用 记录 功能 。 示 例 8-15 展示 了 一 个 启用 审计 


记录 功能 的 示例 文件 auditLog.xml, 


示例 8-15 Accumulo auditLog.xml 


<?xml versionz"1.0" encoding="UTF -8"?> 
<!DOCTYPE log4j:configuration SYSTEM "log4j.dtd"> 























«log4j:configuration xmlns:log4j="http://jakarta.apache.org/log4j/"> 


<!-- Write out Audit info to an Audit file --> 


«appender name="Audit" class="org.apache.log4j.DailyRollingFileAppender "> 


<param name="File" 


value-"/var/log/accumulo/accumulo01.example.com.audit"/» 


«param name-"MaxBackupIndex" value="10"/> 

«param name-"DatePattern" value="'.'yyyy-MM-dd"/> 

«layout class="org.apache. log4j.PatternLayout"> 
<param name="ConversionPattern" 


value="%d{yyyy-MM-dd HH:mm:ss,SSS/Z} [%c{2}] %-5p: %m%n" /> 


</lLayout> 

</appender> 

<logger name="Audit" additivity="false"> 
<appender-ref ref="Audit" /> 


<!-- Change level from OFF to INFO. default:«level value="0FF"/> --> 


<level value="INFO"/> 
</logger> 


</1log4j:configuration> 























Accumulo 既 审计 普通 用 户 的 访问 ， 也 审计 系统 管理 员 的 操作 。 每 条 审计 记录 包括 操作 状 
aS (成 功 、 失 败 、 人 允许、 拒绝 ) 和 进行 该 操作 的 用 户 ， 如 果 操 作 是 远程 请 求 ， 则 还 包括 客 
户 端 地 址 。 对 于 失败 的 请 求 ， 还 会 记录 那些 导致 失败 的 异常 。 虽 然 个 体 的 操作 行为 在 细节 



































上 有 所 不 同 ， 但 通常 都 会 包含 操作 目标 ， 以 及 诸如 被 访问 的 行 和 列 范 目 





种 细节 。 表 8-1 展示 了 Accumulo 记录 的 行为 列表 。 














之 类 的 相关 参数 这 


aor 








表 8-1: Accumulo 的 审计 操作 




























































































操作 描述 

authenticate 用 户 通 过 Accumulo 的 身份 验证 
createUser 管理 员 创建 一 个 新 用 户 
dropUser 管理 员 删 除 用 户 
changePassword 管理 员 更 换 用 户 的 密码 
changeAuthorizations 管理 员 改 变 对 用 户 的 授权 
grantSystemPermission 管理 员 将 系统 权限 授予 用 户 
grantTablePermission 管理 员 授 予 用 户 某 表 的 权限 
revokeSystemPermission ”管理 员 撤 销 用 户 的 系统 授权 
revokeTablePermission 管理 员 撤 销 用户 对 某 表 的 权限 
createTable 用 户 创建 表 

deleteTable 用 户 删 除 表 

renameTable 用 户 对 表 进 行 重 命名 

cloneTable 用 户 复制 表 

scan 用 户 扫 描 一 定 范围 的 行内 容 
deleteData 用 户 删 除 表 数据 

bulkImport 用 户 发 起 批量 数据 导入 

export 用 户 从 一 个 集群 向 另 一 集群 导出 表 
import 用 户 导入 一 张 从 别处 导出 的 表 








现在 看 看 进行 一 些 操作 之 后 的 审计 日 志 。 本 例 包含 执行 以 下 操作 之 后 的 审计 结果 : 


Accumulo 的 root 用 户 创建 了 名 为 alice 的 用 户 ， 
Accumulo 的 root 用 户 创 建 了 名 为 bob 的 用 户 ， 
Accumulo 的 root 用 户 创建 了 名 为 sample 的 表 ， 
Accumulo 的 root 用 户 授予 alice 对 sample 表 的 Table.READ 和 Table.WRITE 访问 权限 ; 
Accumulo 的 root 用 户 授予 bob 对 sample 表 的 Table.READ 访问 权限 ， 
alice 试图 创建 新 表 sample2， 访 问 被 拒绝 ， 

















alice 向 sample 表 插 入 一 个 值 ; 
alice 扫描 了 sample X, 


bob 扫描 了 sample #; 




















bob 试图 向 sample 表 插 入 一 个 值 ， 访 问 被 拒绝 。 


示例 8-16 和 示例 8-17 中 的 审计 日 志 根 据 可 读 性 进行 了 格式 上 的 调整 ， 
改动 。 

















示例 8-16 Accumulo master 的 审计 日 志 
2014-12-27 16:40:11,673/-0800 [Audit] INFO : 


user: root; action: createTable; targetTable: sample; 
2014-12-27 16:40:28,563/-0800 [Audit] INFO : operation: denied; 
user: alice; action: createTable; targetTable: sample2; 


示例 8-16 中 可 以 看 到 ， 创 建 表 的 操作 被 清晰 地 记录 下 来 。root 用 户 能 被 允许 进行 





operation: permitted; 














但 其 他 内 容 没 有 
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createTable 操作 ， 然 而 alice 被 拒绝 。 其 他 的 管理 员 操作 被 记录 在 TabletServer 日 志 中 。 


示例 8-17 Accumulo TabletServer 的 审计 日 志 


示例 8-17 展示 了 TabletServer t TE E E BJ H 


2014-12-27 16:39:49,262/-0800 [Audit] INFO : operation: success; 
user: root: action: createUser; targetUser: alice; Authorizations: ; 
2014-12-27 16:40:02,226/-0800 [Audit] INFO : operation: success; 
user: root: action: createUser; targetUser: bob; Authorizations: ; 
2014-12-27 16:40:13,226/-0800 [Audit] INFO : operation: success; 
user: root: action: grantTablePermission; permission: READ; 
targetTable: sample; targetUser: alice; 
2014-12-27 16:40:13,292/-0800 [Audit] INFO : operation: success; 
user: root: action: grantTablePermission; permission: WRITE; 
targetTable: sample; targetUser: alice; 
2014-12-27 16:40:13,442/-0800 [Audit] INFO : operation: success; 
user: root: action: grantTablePermission; permission: READ; 
targetTable: sample; targetUser: bob; 
2014-12-27 16:40:30,529/-0800 [Audit] INFO : operation: permitted; 
user: alice; action: scan; targetTable: sample; authorizations: ; 
range: (-inf,t+inf); columns: []; iterators: []; iteratorOptions: {}; 
2014-12-27 16:40:43,180/-0800 [Audit] INFO : operation: permitted; 
user: bob; action: scan; targetTable: sample; authorizations: ; 
range: (-inf,t+inf); columns: []; iterators: []; iteratorOptions: {}; 


























能 看 到 createUser 操作 、 被 创建 的 用 户 和 


该 用 户 被 授予 的 权限 ， 也 可 以 看 到 经 过 授权 的 grantTablePermission 操作 、 目 标 表 和 目标 
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8.8 Sentry 审 计 日 志 


第 7 章 中 ， 我 们 知道 Sentry 的 最 新 版 本 使 用 一 个 服务 处 到 


交互 。 审 计 过 程 中 ， 对 修改 授权 策略 的 事件 进行 审计 是 极其 关键 的 。 为 了 做 到 这 一 点 ， 























hi 





日 户 。 最 后 还 可 以 看 到 两 个 scan 操作 和 查询 的 细节 : 行 范围 、 列 和 所 用 迭代 器 。 值 得 注意 
的 是 写 操作 的 缺失 ， 这 是 Accumulo 审计 框架 当前 的 不 足 之 处 。 同 样 ， 也 看 不 到 身份 验证 
事件 ， 因 为 这 些 事件 是 被 shell 自身 记录 的 。 


授权 请 求 ， 并 管理 与 规则 库 的 





Sentry 需要 被 配置 为 捕获 审计 事件 ， 而 记录 类 sentry.hive.authorization.ddl.logger IE 
是 需要 被 配置 的 类 之 一 。 示 例 8-18 展示 了 如 何 进 行 这 种 配置 。 


示例 8-18 Sentry 服务 的 og4j.properties 


# other log settings omitted 
log4j.logger.sentry.hive.authorization.ddl.logger=${sentry.audit. logger} 
log4j.additivity.sentry.hive.authorization.ddl.logger-false 
sentry.audit.logger-TRACE,RFAAUDIT 

sentry.audit.log.maxfilesize-256MB 

sentry.audit.log.maxbackupindex-20 

log4j.appender .RFAAUDIT=org. apache. log4j.RollingFileAppender 
log4j.appender .RFAAUDIT.File=${log.dir}/audit/sentry-audit.log 
log4j.appender.RFAAUDIT. Layout=org. apache. log4j.PatternLayout 


log4j.appender.RFAAUDIT. Layout. ConversionPattern=%d{ISO8601} %p %c{2}: %m%n 


log4j.appender .RFAAUDIT.MaxFileSize=${sentry.audit. log.maxfilesize} 
log4j.appender .RFAAUDIT .MaxBackupIndex=${sentry. audit. log.maxbackupindex} 














HÆ, Sentry 被 配置 为 记录 审计 事件 ， 下 面 看 一 个 示例 。 该 例 中 ，Alice 是 Sentry 管理 员 ， 
Bob 不 是 。Alice 使 用 beeline 控制 台 创 建 了 一 个 名 为 analyst 的 新 角色 ， 并 将 它 分 配给 
analystgrp 组 ， 然 后 授予 它 对 默认 数据 库 进 行 SELECT 操作 的 特权 。 接 下 来 ，Bob 试图 使 用 






































impala-shell 创建 一 个 新 角色 ， 但 访问 被 拒绝 。 示 例 8-19 展示 了 这 些 行为 的 记录 。 


示例 8-19 Sentry 服务 审计 日 志 


2015-01-02 11:17:10,753 INFO ddl.logger: 
{"serviceName":"Sentry-Service","userName":"alice","impersonator": 
"hive/server1.example.com@EXAMPLE.COM","ipAddress":"/10.6.9.74", 
"operation": "CREATE_ROLE", "eventTime": "1420215430742" ,"operationText": 
"CREATE ROLE analyst","allowed":"true","databaseName":null, 
"tableName":null,"resourcePath":null,"objectType": ROLE") 

2015-01-02 11:17:37,537 INFO ddl.logger: 
{"serviceName":"Sentry-Service","userName":"alice","impersonator": 
"hive/server1.example.comQEXAMPLE. COM" , "ipAddress" :"/10.6.9.74", 
"operation":"ADD ROLE TO GROUP","eventTime":"1420215457536", 
"operationText":"GRANT ROLE analyst TO GROUP analystgrp","allowed":"true", 
"databaseName" :null,"tableName":null,"resourcePath":null,"objectType":"ROLE") 

2015-01-02 11:17:52,408 INFO ddl.logger: 
{"serviceName":"Sentry-Service","userName":"alice","impersonator": 

"hive/server1.example.com@EXAMPLE.COM","ipAddress":"/10.6.9.74", 

"operation": "GRANT_PRIVILEGE", "eventTime": "1420215472407", "operationText": 

"GRANT SELECT ON DATABASE default TO ROLE analyst","allowed":"true", 


"databaseName" : "default","tableName":"","resourcePath":"" ,"objectType" : "PRINCIPAL") 


2015-01-02 11:33:20,199 INFO ddl.logger: 
["serviceName":"Sentry-Service","userName" : "bob" ,"impersonator": 
"impala/server1.example.com@EXAMPLE.COM","ipAddress":"/10.6.9.73", 
"operation": "CREATE_ROLE", "eventTime": "1420216400199" ,"operationText": 
"CREATE ROLE temp","allowed":"false","databaseName":null,"tableName":null, 


"resourcePath":null, "objectType": "ROLE" } 




















如 日 志 所 示 ， 实 际 的 审计 记录 是 ISON 格式 的 。 该 格式 有 利于 外 部 的 日 志 聚 合 和 管理 系统 




















对 日 志 进 行 处 理 ， 这 在 大 型 企业 中 是 很 重要 的 。 


8. 9 日 志 BR E 




















审计 日 志 通 常 分 散在 集群 中 的 许多 节点 (如果 不 是 全 部 )。 市 点 的 数量 乘 以 生成 的 独立 日 


志文 件 的 数量 ， 使 各 得 掌握 系 统 中 正在 发 生 的 事情 变 成 项 放大 的 任务 。 强烈 推荐 的 典型 做 
法 是 ， 使 用 某 种 日 志 聚 合 系统 从 集群 中 的 所 有 节点 拉 取 所 有 审计 事件 ， 放 入 一 个 集中 化 的 





TE oem 当然 ， 还 有 专门 面向 Hadoop 的 方法 ， 以 获取 关于 集群 中 发 生 事 
的 额 
se 
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即便 如 此 ， 企 业 中 已 经 部 署 的 通用 日 志 聚 合 系统 也 是 管理 Hadoop 审计 日 志 


另 一 个 有 意思 的 日 志 聚 合 选择 是 ， 将 其 聚合 后 再 导 回 Hadoop 集群 以 进行 分 析 。Hadoop 的 








安全 用 例 是 通用 的 ， 在 Hadoop 中 分 析 审 计 事件 也 适合 这 些 用 例 。 如 本 章 所 示 ， 审 计 寻 
通常 都 是 结构 化 形式 ， 以 方便 使 用 类 似 Hive 或 Inpala 的 SQL 工具 进行 查询 。 
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8.10 ”小 结 


本 章 学 习 了 Hadoop 生态 系统 中 的 几 种 组 件 ， 并 且 阑 述 了 用 户 与 集群 交互 时 被 记录 审计 事 
件 的 类 型 。 这 些 日 志 事件 不 仅 对 于 审计 普通 用 户 在 做 什么 很 关键 ， 对 于 发 现 非 授权 用 户 斌 
图 做 什么 也 很 关键 。 尽 管 Hadoop 生态 系统 没有 原生 警告 功能 ， 但 日 志 事件 的 架构 有 利于 
外 部 附加 工具 以 一 种 更 通用 化 的 方式 使 用 事件 日 志 。 主 动 警告 是 Hadoop 生态 系统 正在 开 
发 的 新 功能 ， 尽 管 如 此 ， 仍 然 有 很 多 通用 的 日 志 聚 合 工具 拥有 对 满足 某 种 条 件 的 事件 进行 
警告 的 功能 ， 这 些 工具 在 企业 中 很 通用 。 


本 章 涉 及 的 所 有 审计 功能 包含 AAA (认证 、 授 权 和 审计 ) 中 的 审计 部 分 。 之 后 将 深入 学 
习 实 际 的 数据 Hadoop 的 生命 线 和 大 数据 一 一 是 怎样 受 保护 的 。 
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目前 为 止 ， 我 们 已 经 讲述 了 如 何 配 置 Hadoop 以 实施 标准 的 AAA 控制 。 本 章 将 理解 这 些 
控制 如 何 与 第 1 章 介 绍 的 CIA 准则 一 起 ， 为 数据 保护 提供 基础 。 数 据 保护 是 一 个 宽泛 的 概 
念 ， 包 括 从 数据 保密 性 到 准 用 性 等 很 多 主题 。 其 中 需要 特别 关注 的 一 个 内 容 是 加 密 。 


加 密 是 保护 数据 的 一 种 常见 方法 。 数 据 加 密 主要 有 两 种 类 型 : 静态 数据 (data-at-rest) 加 
客 和 动态 数据 (data-in-transit) 加 密 ， 也 称 为 线 上 (over-the-wire) 加 客 。 静 态 数据 指 
的 是 ， 即 使 机 器 关闭 后 依旧 可 以 存储 的 数据 ， 包 括 硬盘 、 内 存盘 、USB 记忆 棒 、 内 存 卡 、 
CD、DVD， 甚 至 储藏 箱 中 一 些 老式 软盘 或 磁带 中 的 数据 。 动 态 数 据 ， 顾 名 思 义 ， 是 流动 
的 数据 ， 例 如 在 互联 网 、USB 线 、 咖 啡 店 Wi-Fi、 手 机 基站 或 者 从 远程 空间 站 到 地 球 之 间 
传输 的 数据 。 


一 * 
9.1 加 密 算法 
深入 了 解 两 种 类 型 的 数据 加 密 之 前 ， 先 简要 介绍 加 密 算法 。 加 密 算法 定义 了 用 于 加 密 数据 
的 数学 方法 。 一 种 常见 的 加 密 算法 是 AES (Advanced Encryption Standard， 高 级 加 密 标 
准 ) ， 它 是 由 美国 国家 标准 技术 研究 所 (NIST) 在 FIPS-197 (http://1.usa.gov/1GFoldU) 中 
建立 的 一 个 标准 。 
本 书 不 会 描述 AES 加 密 是 如 何 工作 的 ， 推 荐 阅读 Christof Paar 和 Jan Palzl 编著 的 《深入 
浅 出 密码 学 : 常用 加 密 技术 原理 与 应 用 》 中 的 第 4 章 。 其 他 稼 见 的 加 密 算法 还 包括 DES, 
RC4, Twofish 和 Blowfish, 
加 密 数 据 时 ， 密 钥 的 大 小 很 重要 。 通 常 来 说 ， 密 钥 越 大 ， 越 难 破 解 ， 但 缺点 是 加 密 速度 就 
越 慢 。 处 理 很 小 的 数据 时 ， 加 密 密 钥 的 大 小 应 该 不 超过 数据 本 身 。 
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使 用 AES 时 ， 所 支持 的 常见 密 钥 大 小 是 128 位 、192 位 和 256 位 。 当 今 的 业界 标准 是 
AES-256 (256 位 密 钥 ) 加 密 ， 但 历史 已 经 证 明 ， 这 也 是 会 变 的 。DES 和 三 重 DES (3 轮 
DES 加 密 ) 一 度 是 业界 标准 ， 但 这 两 种 加 密 算法 都 能 被 现在 的 计算 机 很 轻易 地 暴力 破解 。 


考虑 到 加 密 带 来 的 性 能 开销 ， 芯 片 制 造 商 创造 了 硬件 层 函 数 以 提升 加 密 性 能 。 这 些 增强 可 
以 使 加 密 速度 比 软件 加 密 提升 多 个 数量 级 。 一 种 流行 的 硬件 加 密 技术 是 英特尔 的 AES-NI。 


对 加 密 方法 和 算法 有 了 基本 了 解 之 后 ， 可 以 深入 探讨 全 盘 加 密 和 文件 系统 加 密 。 这 些 加 密 
方法 不 需要 特殊 硬件 ， 实 现 起 来 较为 容易 。 


9.2 ”静态 数据 加 密 


假设 Alice 将 一 条 给 Bob 的 消息 放 在 一 个 USB 记忆 棒 中 ， 并 将 其 给 了 Bob, fH Bob 在 慌乱 
中 不 知道 将 这 个 USB 记忆 棒 放 到 哪儿 了 ， 而 Eve 恰好 捡 到 了 它 。 出 于 好 奇 ，Eve 将 其 连 到 
USB 上 ， 尝 试 读 取 其 中 内 容 。 幸 运 的 是 ，Alice 对 消息 进行 了 加 密 ， 否 则 她 就 会 陷入 篮 欣 
的 局 面 。 这 个 简单 的 例子 中 ， 加 密 保证 了 消息 的 机 密 性 ， 除 Bob 之 外 ， 没 有 人 知道 解密 数 
据 的 密码 。Hadoop 生态 系统 的 核心 是 HDFS， 它 是 很 多 其 他 组 件 的 文件 系统 。 直 到 最 近 ， 
HDFS 本 身 才 支持 加 密 数 据 ， 这 意味 着 需要 采用 其 他 加 密 方 法 。 


这 些 年 来 ， 经 常 发 生 由 笔记 本 电脑 和 手机 丢失 、 硬 盘 处 理 不 当 、 硬 件 被 盗 导 
致 的 敏感 数据 泄漏 案件 。 静态 数据 加 密 能 够 减轻 这 些 类 型 的 数据 泄漏 ， 因 为 
加 密使 得 查看 数据 变 得 更 加 困难 〈 但 并 非 不 可 能 )。 












































除了 原生 HDFS 加 密 之 外 ， 下 面 看 看 另外 三 种 选择 。 我 们 不 会 对 每 个 方法 深入 探讨 ， 因 
为 一 些 方法 是 针对 厂商 的 。 这 些 方法 在 HDFS 之 下 以 透明 的 方式 工作 ， 因 此 不 需要 进行 
Hadoop 相关 配置 。 所 有 这 些 方法 都 会 在 某 个 磁盘 从 磁盘 阵列 中 物理 移 除 的 情况 下 对 数据 
进行 保护 。 
Jo È hae 
该 方法 与 操作 系统 完全 无 关 ，HDFS 用 于 存储 数据 的 物理 磁盘 ， 支 持原 生 加密 。 不 足 之 
处 在 于 ， 加 密 磁盘 无 法 保护 数据 不 被 恶意 用 户 和 系统 上 运行 的 进程 读 取 。 
Add 
该 方法 通常 在 系统 启动 时 工作 ， 与 加 密 磁 盘 方 式 不 同 的 是 ， 它 不 需要 特殊 的 磁盘 或 硬 
件 。 这 种 技术 存在 若干 种 实现 方案 ， 通 常 根据 操作 系统 的 不 同 而 不 同 。 一 些 全 盘 加 密 方 
法 支持 操作 系统 根 分 区 加 密 ， 一 些 只 支持 HDFS 块 所 在 的 数据 分 区 或 数据 卷 加 密 。 全 盘 
加 密 也 与 加 密 磁盘 方式 有 一 样 的 不 足 ， 即 无 法 保护 数据 不 被 恶意 用 户 和 系统 上 运行 的 进 
程 读 取 。 
文件 系统 加 密 
该 方法 在 操作 系统 层 工 作 ， 不 需要 特殊 的 磁盘 或 硬件 。 这 种 技术 存在 若干 种 实现 方案 ， 
根据 操作 系统 的 不 同 而 不 同 。 该 方法 不 支持 对 根 分 区 的 文件 系统 加 密 ， 否 则 就 变 成 “ 鸡 
EERDERE” APAT: 加 密 OS 需要 先 启动 ， 以 对 OS 进行 解密 。 文 件 系统 加 密 
的 一 个 好 处 是 ， 它 能 够 保护 数据 不 被 恶意 用 户 和 系统 上 运行 的 进程 窃取 。 如 果 一 个 加 密 












































数据 保护 | 145 











的 主 目录 使 用 一 个 某 用 户 知 道 的 密码 进行 加 密 ， 并 且 该 用 户 自 系统 启动 之 后 没有 登录 
过 ， 那 么 恶意 用 户 或 进程 就 不 可 能 获得 该 密码 解锁 用 户 数据 ， 即 便 是 root 用 户 也 不 行 。 


9.2.1 加密 和 密 钥 管 理 

Hadoop 生产 集群 通常 有 成 千 上 万 个 节点 ， 每 个 节点 有 8-12 个 磁盘 ， 将 静态 数据 加 密 扩展 
到 HDFS 之 外 的 其 他 组 件 增 大 了 潜在 的 复杂 性 。 准 备 实施 加 密 时 ， 考 虑 如 下 几 个 额外 的 问 
Ui GRE. 

。 如 何在 加 密 情况 下 配置 多 个 磁盘 分 区 ? 

。 如 何 避 免 在 系统 启动 时 或 在 明文 脚本 中 提供 密码 ? 


最 后 ， 大 规模 静态 加 密 的 难点 在 于 密 钥 管理 。 下 一 节 将 要 讨论 的 原生 HDFS 静态 数据 加 密 
混合 使 用 了 两 种 方式 : 将 加 密 密 钥 与 文件 元 数据 组 合 ， 以 及 依赖 外 部 的 key server 管理 密 
钥 材 料 。 我 们 讨论 的 其 他 静态 数据 加 密 技术 一 定 程度 上 也 需要 密 钥 管理 服务 。 


为 密 钥 管 理 系 统 选择 厂商 很 复杂 ， 我 们 也 无 法 为 你 的 环境 推荐 某 个 厂商 。 但 你 选择 时 可 以 
考虑 如 下 几 个 重要 标准 : 

。 解决 方案 是 否 支持 硬件 安全 模块 ? 

。 解决 方案 的 扩展 性 如 何 〈 密 钥 个 数 以 及 每 秒 获取 密 钥 的 速度 ) ? 

。 解决 方案 是 否 支持 Hadoop 标准 (如 KeyProvider 接口 ) ? 

。 管理 成 百 上 千 个 密 钥 的 授权 控制 的 难 易 程度 如 何 ? 


如 果 正 在 使 用 预 打包 的 Hadoop 版 本 ， 那 么 寻找 密 钥 管理 系统 厂商 最 简单 的 方法 是 ， 查 找 
你 的 Hadoop 厂商 所 认证 的 安全 厂商 。 


9.2.2 ”HDFS 静 态 数 据 加 密 


从 Hadoop 2.6 开始 ，HDFS 支持 原生 静态 加 密 。 这 项 功能 并 不 被 视 为 全 盘 加 密 或 文件 系统 
加 密 ， 而 是 另外 一 种 名 为 应 用 层 加 密 的 类 型 。 该 方法 中 ， 数 据 被 发 送 和 到 达 存 储 位置 之 
前 ， 在 应 用 层 被 加 密 。 这 种 方法 运行 在 操作 系统 层 之 上 ， 不 需要 除 Hadoop 提供 之 外 的 任 
何 特殊 的 操作 系统 软件 包 或 硬件 。 要 想 了 解 更 多 关于 原生 HDFS 加 密 设计 的 信息 ， 可 以 阅 
读 HDFS 静态 数据 加 密 设 计 文档 (http://bit.ly/1KZMeph)。 


HDFS 中 ， 需 要 加 密 的 目录 被 分 解 成 若干 加 密 区 (encryption zone), ， 加 密 区 中 的 每 个 文 
件 都 被 使 用 唯一 的 数据 加 密 密 钥 (data encryption key, DEK) 进行 加 密 ， 这 就 是 加 密 区 
的 区 别 所 在 。 明 文 DEK 不 是 永久 的 ， 而 是 用 一 个 名 为 加 密 区 密 钥 (encryption zone key, 
EZK) 的 区 域 级 加 密 密 钥 ， 将 DEK 加 密 成 加 密 DEK (encrypted DEK，EDEK)。 之后， 
EDEK 作为 指定 文件 NameNode 元 数据 中 的 扩展 属性 永久 存在 。 

HDFS 加 密 区 提供 了 一 个 能 够 镜像 外 部 安全 域 的 工具 。 以 一 个 具有 多 部 门 的 公司 为 例 ， 每 个 
部 门 都 需要 维护 一 些 仅 限 本 部 门 可 用 的 数据 集 。 可 以 通过 在 每 个 部 门 创建 一 个 加 密 区 以 保护 
各 部 门 的 数据 ， 从 而 省 去 了 在 认证 密 钥 库 (keystore) 里 为 每 个 文件 保存 唯一 密 钥 的 开支 。 
如 果 EDEK 存储 在 HDFS 元 数据 中 ， 那 么 EZK 在 哪里 存储 在 哪里 呢 ? 这 些 密 钥 需要 确 
保安 全 ， 因 为 泄露 EZK 会 导致 所 有 存储 在 该 加 密 区 的 数据 都 能 够 被 他 人 访问 。 为 了 防止 
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Hadoop 管理 员 访 问 EZK 从 而 能 够 加 密 任何 数据 ，EZK 不 能 存储 在 HDFS 中 。EZK 需要 
通过 安全 的 key server 来 访问 ，key server 本 身 是 一 个 用 于 处 理 EZK 的 存储 和 获取 的 独立 
软件 。 在 较 大 的 公司 中 ， 实 际 的 存储 组 件 由 一 个 专用 的 硬件 安全 模块 (hardware security 
module, HSM) 来 处 理 。 通 过 该 部 署 ，key server 就 成 为 了 请 求 密 钥 的 客户 端 和 后 端 安 全 
存储 的 软件 接口 。 

为 了 进行 职责 分 离 ， 需 要 在 HDFS、HDFS 客户 端 和 key server 之 间 有 个 中 间 层 。Hadoop 
密 钥 管理 服务 (Key Management Server, KMS) 的 引入 解决 了 这 个 问题 。KMS 负责 
生成 加 密 密 钥 (包括 EZK 和 DEK), 45 key server 通信 以 及 解密 EDEK, KMS 通过 名 为 
KeyProvider 的 Java API， 与 key server 进行 通信 。 稍 后 讲解 KeyProvider 的 实现 和 配置 。 


为 了 更 好 地 理解 其 工作 流程 ， 下 面 看 看 当 一 个 HDFS 客户 端 向 HDFS 加 密 区 中 写 入 一 个 新 
文件 时 ， 发 生 的 事件 序列 。 


(1) HDFS 客户 端 调用 create() 函数 写 新 文件 。 

(2) NameNode 请 求 KMS 使 用 给 定 的 EZK-id/ 版 本 创建 一 个 EDEK。 

(3)KMS 生成 一 个 新 的 DEK。 

(4) KMS 从 key server 获取 EZK., 

(5) KMS 对 DEK 进行 加 密 ， 形 成 EDEK。 

(6) KMS 将 EDEK 提交 给 NameNode。 

(7)NameNode 将 EDEK 保存 为 文件 元 数据 的 扩展 属性 。 

(8) NameNode 将 EDEK 提交 给 HDFS 客户 端 。 

(9) HDFS 客户 端 提 交 EDEK 到 KMS, ， 并 请 求 DEK, 

(10) KMS 向 key server 请 求 EZK。 

(11) KMS 使 用 EZK 解密 EDEK。 

(12) KMS 将 DEK 提交 给 HDFS 客户 端 。 

(13) HDFS 客户 端 使 用 DEK 加 密 数据 。 

(14) HDFS 客户 端 向 HDFS 写 入 加 密 数 据 块 。 

读 取 加 密 文件 的 事件 序列 如 下 。 

(1) HDFS 调用 open() 函数 来 读 文 件 。 

(2) NameNode 将 EDEK 提交 给 客户 端 。 

(3) HDFS 客户 端 将 EDEK 和 EZK-id/ 版 本 传递 给 KMS, 

(4) KMS 向 key server 请 求 EZK。 

(5) KMS 使 用 EZK 解密 EDEK。 

(6) KMS 将 DEK 提交 给 HDFS。 

(7) HDFS 客户 端 读 取 加 密 数据 块 ， 并 使 用 DEK 对 其 解密 。 

读 和 写 的 事件 中 ， 都 没有 提 到 HDFS 授权 。 授 权 检 查 在 文件 可 以 被 创建 或 打开 之 前 仍然 是 
存在 的 。 加 密 /解密 步骤 仅 在 HDFS 授权 检查 之 后 进行 。 

KMS 在 HDFS 加 密 中 扮演 着 重要 角色 ， 因 此 不 应 被 放 在 运行 着 其 他 Hadoop 
生态 系统 组 件 的 服务 器 或 者 作为 客户 端 边 界 节 点 的 服务 器 上 。 需 要 有 一 种 合 
适 的 职责 分 离 ， 并 且 加 密 的 关键 操作 和 其 他 操作 之 间 需 要 进行 隔离 。 
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HF KMS il key server 以 及 HDFS 客户 端 之 间 的 通信 都 包含 加 密 密 钥 的 传递 ， 因 此 使 用 
TLS (传输 层 安 全 协议 ) 对 该 通信 也 进行 加 密 绝对 是 至 关 重 要 的 。 下 一 节 将 讨论 如 何 做 到 这 








1. 配置 
本 章 介 绍 了 很 多 关于 HDFS 加 密 的 内 容 ， 但 还 没有 讨论 如 何 对 这 些 内 容 进 行 配置 。 在 每 个 
HDFS 节点 和 客户 端 节 点 的 core-site.xml 中 设置 如 下 参数 。 
hadoop.security.key.provider.path 
KeyProvider 作为 客户 端 ， 与 加 密 密 钥 交互 时 使 用 的 URI。 示 例 : kms: //https@kms. 
example.com:16000/kms, 


TE HDFS 服务 端 (NameNode 和 DataNode) 侧 ， 可 以 使 用 如 下 属性 。 


dfs.encryption.key.provider.uri 
KeyProvider 与 读 写 加 密 区 使 用 的 加 密 密 钥 交互 时 ， 使 用 的 URI。 示 例 : kms:// httpse 
kms . example.com:16000/kms , 








hadoop.security.crypto.cipher.suite 

用 于 加 密 编码 的 加 密 套 件 。 默 认 值 : AES/CTR/NoPadding 

hadoop.security.crypto.codec.classes.aes.ctr.nopadding 
H3 4) BRAY, AES/CTR/NoPadding 密码 编码 器 的 实现 方案 。 第 一 个 实现 方案 有 效 
时 会 使 用 第 一 个 实现 方案 ， 其 他 为 备用 方案 。 默 认 值 : org.apache.hadoop.crypto. 
OpensslAesCtrCryptoCodec,org.apache.hadoop.crypto.JceAesCtrCryptoCodec 





hadoop.security.crypto.jce.provider 


JCE 提供 者 。 默 认 值 : None 


hadoop.security.crypto.buffer.size 
CryptoInputStream 和 CryptoOutputStream 使 用 的 缓存 大 小 。 默 认 值 : 8192 
如 上 所 示 ，HDFS 的 配置 很 少 。 在 密码 方面 ，HDFS 使 用 合适 的 默认 值 ， 因 此 要 启用 HDFS 
加 密 只 需 设置 前 两 个 配置 ， 即 hadoop.security.key.provider.path 和 dfs.encryption.key. 
provider.uri, 
要 配置 Hadoop KMS, ， 需 要 用 到 kms-site.xml 这 个 配置 文件 。 在 Hadoop KMS 节点 上 配置 
如 下 属性 。 
hadoop.kms.key.provider.uri 
EZK 提供 者 的 URI. afl: jceks://file@/var/lib/kms/ kms.keystore, 








hadoop.kms.authentication.type 
要 使 用 的 认证 机 制 。 示 例 : simple 或 Kerberos, 
hadoop.kms.authentication.kerberos.keytab 


服务 认证 所 需 的 Kerberos keytab 文件 位 置 。 


hadoop.kms.authentication.kerberos.principal 
服务 认证 时 应 当 使 用 的 SPN。 示 例 : HTTP /kms . example. comgEXAMPLE . COM, 
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hadoop.kms.authentication.kerberos.name.rules 
Kerberos 使 用 的 auth. to local 规则 。 示 例 : DEFAULT, 


hadoop.kms.proxyuser.<user>.groups 


«user» (Zt hdfs, hive, oozie) 被 允许 模拟 的 组 列表 。 


hadoop.kms.proxyuser.<user>__.hosts++ 


被 允许 进行 身份 模拟 的 «user» (如 hdfs、hive、oozie) 的 来 源 主机 列表 。 


KMS 配置 项 中 ， 有 一 个 例子 说 明了 其 能 够 使 用 基于 文件 的 KeyProvider, JE 
只 是 一 个 保存 EZK 的 Java keystore 文件 。 虽然 这 是 建立 和 运行 HDFS 加 密 
的 一 种 快捷 简单 的 方法 ， 但 只 有 在 概念 验证 (POC) 或 开发 环境 中 才 推 荐 用 
这 种 方法 进行 测试 。 使 用 基于 文件 的 KeyProvider 会 将 KMS 和 key server 功 
能 放 在 同一 个 机 器 上 ， 这 没有 提供 要 求 的 职责 安全 分 离 ， 也 不 具备 实施 额外 
的 隔离 控制 的 能 力 。 此 外 ， 密 钥 的 存储 只 是 磁盘 上 的 一 个 基础 文件 。 如 前 所 
述 ， 多 数 企 业 想 要 使 用 类 似 KeyProvider 的 独立 服务 ， 它 为 EZK 使 用 更 安全 
的 存储 方式 ， 例 如 HSM 提供 的 存储 。 









































从 KMS 配置 能 够 看 出 ， 可 以 使 用 Kerberos 强 认 证 ， 这 绝对 是 推荐 配置 。 由 于 KMS 提供 
内 容 的 敏感 性 ， 不 应 使 用 非 Kerberos 的 部 署 。 实 际 的 KMS 运行 在 HTTP 协议 之 上 ， 因 此 
KMS 客户 端的 Kerberos 认证 发 生 在 SPNEGO E. MEAL, KMS 使 用 的 Kerberos 主体 应 当 
与 HTTP/kms.example. com@EXAMPLE. COM 类 似 一 一 使 用 HTTP 服务 名 。 


上 一 节 提 到 过 ， 为 KMS 设置 TLS 线 上 加 密 是 很 重要 的 。 要 做 到 这 一 点 ， 需 要 在 kms-env. 
sh 中 为 KeyStore 和 密码 配置 两 个 环境 变量 。KeyStore 文件 仅 是 一 个 jks (Java KeyStore) 
文件 ， 其 位 置 由 环境 变量 KMS_SSL_KEYSTORE_fiLE 指定 。 如 果 KeyStore 使 用 了 密码 保护 
(这 也 是 应 当做 的 ! ) ， 则 要 在 环境 变量 KMS SSL KEYSTORE PASS 中 指定 密码 。 


2. KMS 授 权 
与 其 他 Hadoop 组 件 一 样 ，KMS 也 能 够 使 用 访问 控制 表 (ACL) 限制 对 特定 功能 的 访问 。kms- 
acls.xml 文件 存储 了 哪些 用 户 和 组 可 以 执行 哪些 KMS 功能 的 相关 信息 ， 如 示例 9-1 所 示 。 





























示例 9-1 KMS 的 kms-acls.xml 


<?xml version="1.0" encoding="UTF-8"?> 
<configuration> 
<property> 
<name>hadoop.kms. blacklist. CREATE</name> 
«value-hdfs supergroup</value> 
</property> 
<property> 
<name>hadoop.kms. blacklist .DELETE</name> 
«value-hdfs supergroup</value> 
</property> 
<property> 
<name>hadoop.kms. blacklist .ROLLOVER</name> 
«value-hdfs supergroup</value> 
</property> 
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<property> 
<name>hadoop.kms.blacklist.GET</name> 
«value-hdfs supergroup</value> 

</property> 

<property> 
<name>hadoop.kms.blacklist.GET_KEYS</name> 
<value>hdfs supergroup</value> 

</property> 

<property> 
<name>hadoop.kms.blacklist.SET_KEY_MATERIAL</name> 
«value-hdfs supergroup</value> 

</property> 

<property> 
<name>hadoop.kms. blacklist .DECRYPT_EEK</name> 
«value-hdfs supergroup</value> 

</property> 

<property> 
<name>default.key.acl.MANAGEMENT</name> 
<value> infosec</value> 

</property> 

<property> 
<name>default.key.acl.GENERATE_EEK</name> 
«value-hdfs supergroup</value> 

</property> 

<property> 
<name>default.key.acl.DECRYPT_EEK</name> 
«value» hadoopusers</value> 

</property> 

<property> 
<name>default.key.acl.READ</name> 
<value> infosec</value> 

</property> 


</configuration> 


示例 9-1 中 的 每 个 条 目 都 有 一 个 格式 为 “用 户 1， 用 户 2 1, 422" WE, 5627 
描述 的 一 样 。 你 可 能 注意 到 了 黑 名 单 的 使 用 。 为 了 将 Hadoop 管理 员 与 实际 数据 强制 B 








dt 





E: 





Ej, Hadoop 管理 员 不 应 能 够 与 KMS 交互 ， 也 不 能 在 KMS 上 执行 操作 。 属 于 超级 组 
(supergroup) 的 Hadoop 管理 员 有 遍历 整个 HDFS 目录 树 的 能 力 ， 而 加 密 数据 不 应 能 被 集群 
管理 员 解密 ， 因 此 必须 将 这 些 用 户 加 入 黑 名 单 。 


记 住 ，Hadoop KMS 是 个 通用 的 密 钥 管 理 





服务 ， 它 所 管理 的 密 钥 是 没有 含义 的 ， 或 者 说 对 


它们 的 处 理 方式 上 是 没有 区 别 的 。 这 意味 着 从 KMS 的 角度 看 ，EZK 和 DEK 是 一 样 的 。 这 
就 是 为 什么 使 用 KMS ACL 是 很 重要 的 。 例 如 ， 默 认 情 况 下 ，CREATE 操作 会 返回 实际 的 
密 钥 内 容 。 如 果 普 通用 户 能 够 获取 实际 的 EZK 那 就 糟 了 ， 因 为 它 可 以 用 于 解密 EDEK， 从 
而 获取 整个 加 密 区 的 内 容 。 




















创建 和 管理 密 钥 。 





允许 任意 用 户 创建 密 钥 会 带 来 一 些 潜在 的 安全 风险 。 例 如 一 
轻易 地 写 个 脚本 ， 不 停 创 建新 密 钥 ， 直 至 KMS 和 /或 key server 宕 掉 (如 存 
储 空间 不 足 )。 这 实际 上 制造 了 一 个 拒绝 服务 (dos) 的 场景 ， 导 致 所 有 加 密 
数据 都 无 法 访问 ! 使 用 限制 性 的 KMS ACL 可 以 授权 一 小 组 安全 管理 员 能 够 








个 恶意 用 户 可 以 





建议 〈 至 少 ) 建立 3 个 不 同 的 角色 以 应 用 ACL: Hadoop 管理 员 、 安 全 管理 员 和 普通 用 户 。 
该 模型 下 ，Hadoop 管理 员 只 需 能 够 请 求 KMS 生成 新 EDEK， 安 全 管理 员 负 责 创 建 和 维持 
EZK; 最 后 ， 集 群 的 普通 用 户 只 能 请 求 KMS 解密 给 定 的 EDEK。 

继续 研究 这 个 模型 ， 示例 9-1 展示 了 Hadoop 管理 员 一 一 hdfs 用 户 和 supergroup 组 
被 列 入 黑 名 单 ， 从 而 被 禁止 执行 不 必要 的 操作 。 此 外 ，infosec 组 是 唯一 一 个 被 允许 执行 
MANAGEMENT 和 READ 功能 的 组 。 最 后 ，hadoopusers 组 只 被 允许 执行 DECRYPT_EEK 功能 。 


示例 9-1 展示 的 是 使 用 default.key.acl 前 级 标记 的 默认 ACL， 也 可 以 将 ACL 定义 为 特定 
名 称 的 密 钥 ， 例 如 key.act.foo.READ， 其 中 foo 是 密 钥 名 称 。 下 一 节 介 绍 HDFS 加 密 客户 端 
操作 时 ， 将 讨论 如 何 使 用 密 钥 名 称 。 
3. 客户 端 操 作 
之 前 从 工作 流 和 配置 的 角度 介绍 了 HDFS 加 密 ， 现 在 需要 了 解 把 这 一 切 都 建立 起 来 的 客户 
端 操 作 。 首 先 看 新 EZK 的 创建 。 要 做 到 这 一 点 ， 需 要 使 用 hadoop key 命令 ， 该 命令 会 输 
出 创建 的 密 钥 ， 以 及 执行 该 请 求 的 KMS 的 详细 信息 。 
[bob@server1 ~]$ hadoop key -create myzonekey 
myzonekey has been successfully created with options 
Options{cipher='AES/CTR/NoPadding', bitLength=128, description-'null', attr 
ibutes-null). 


KMSClientProvider[https://kms.example.com:16000/kms/v1/] has been updated. 
[bob@server1 ~]$ 


现在 可 以 在 HDFS 中 创建 一 个 新 的 加 密 区 。 使 用 hdfs crypto 命令 实现 : 


[bob@server1 ~]$ hdfs dfs -mkdir /myzone 

[bob@server1 ~]$ hdfs crypto -createZone -keyName myzonekey -path /myzone 
[bob@server1 -]$ hdfs crypto -listZones 

/myzone myzonekey 

[bob@server1 ~]$ 


从 这 开始 ，HDFS 客户 端 可 以 读 写 /myzone 目录 的 文件 ， 并 对 其 进行 透明 加 密 / 解密 。 


HDFS 加 密 区 的 创建 需要 一 个 空 目 录 ， 而 不 能 是 一 个 包含 数据 的 目录 。 要 对 
已 经 存在 于 HDFS 中 的 数据 加 密 ， 要 将 需要 加 密 的 目录 重 命名 为 一 个 临时 名 
称 ， 重 新 创建 改 目录 ， 设 置 加 密 区 ， 然 后 将 数据 复制 回 加 密 区 。 记 住 ， 原 始 
数据 之 前 是 以 未 加 密 的 形式 存储 在 磁盘 上 的 ， 将 数据 加 密 不 会 删除 磁盘 上 原 
本 暴露 的 未 加 密 敏感 数据 。 


9.2.3 MapReduce2 中 间 数 据 加 密 


HDFS 加 密 启 用 时 ， 对 数据 的 临时 、 中 间 版 本 进行 保护 也 很 重要 。 虽 然 对 MapReduce 作业 
的 中 间 数 据 进行 加 密 是 可 行 的 ， 但 仍 有 一 些 注意 事项 : 


。 中 间 数 据 加 密 是 基于 单个 作业 的 (客户 端 配 置 ) s 
。 用 户 可 能 不 知道 源 数据 来 自 加 密 区 ， 

一 用 户 可 能 没有 正确 启用 中 间 数 据 加 密 

一 用 户 可 能 由 于 性 能 影响 禁用 了 中 间 数 据 加 密 
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。 中 间 数 据 加 密 仅 支持 MR2， 不 支持 MR1。 
表 9-1 中 的 作业 配置 属性 用 于 启用 中 间 数 据 加 密 。 
表 9-1: 中 间 数 据 加 密 属 性 


属性 描述 
mapreduce. job.encrypted-intermediate-data 设置 为 true 以 启用 (默认 值 false) 











mapreduce. job.encrypted-intermediate-data-key-size-bits 加 密 密 钥 长 度 (默认 : 128) 
mapreduce. job.encrypted-intermediate-data.buffer.kb LA kB 为 单位 的 缓存 大 小 (默认 值 128) 


有 实际 需要 时 ， 开 启 和 强制 使 用 中 间 数 据 加 密 当 然 是 理想 的 。 我 们 希望 后 续 的 Hadoop 发 
布 版 能 够 实现 这 项 功能 ， 从 而 使 得 MapReduce 任务 检测 到 自己 正在 读 取 来 自 加 密 区 的 数据 
时 ， 能 够 自动 加 密 中 间 文 件 ， 并 且 该 特性 无 法 被 客户 端 重 写 。 


9.2.4 Impala ii me 

Impala 能 够 在 内 存 无 法 容纳 正在 处 理 的 所 有 数据 时 ， 对 溢出 到 磁盘 的 数据 进行 加 密 。 如 果 

没有 磁盘 溢出 加 密 ， 那 么 敏感 数据 有 可 能 会 在 未 加 密 的 情况 下 被 写 回 磁盘 ， 这 会 对 敏感 数 

据 造成 危害 ， 使 在 一 开始 对 数据 进行 加 密 的 优势 毁 于 一 旦 。 

为 了 让 Impala 守护 进程 保护 溢出 到 磁盘 的 数据 ， 需 要 配置 如 下 局 动 标识 。 

disk spill encryption 
将 该 值 设 为 true， 开 局 对 队列 中 谥 出 到 磁盘 的 所 有 数据 的 加 密 。 默 认 值 : false, Bcd 
即将 次 出 到 磁盘 时 ， 它 会 被 使 用 随机 生成 的 AES 256 位 密 钥 进行 加 密 ;， 数据 被 从 磁盘 
中 读 回 时 ， 随 之 解密 。 

disk_spill_integrity 
将 该 值 设 为 true， 开 局 对 队列 中 溢出 到 磁盘 的 所 有 数据 的 完整 性 检查 。 默 认 值 : 
false。 数 据 即将 溢出 到 磁盘 时 ， 该 数据 的 SHA256 散 列 值 会 被 记录 下 来 ， 从 磁盘 读 回 
时 ， 会 再 次 计算 其 SHA256 值 ， 并 与 原来 的 值 进行 比较 。 这 能 够 防止 溢出 到 磁盘 上 的 
数据 被 算 改 。 


925 全盘 加 密 


如 果 使 用 不 支持 本 地 加 密 的 HDFS 版 本 ,或 者 需要 对 其 他 Hadoop 生态 系统 组 件 使 用 的 数 
据 进行 加 密 ， 那 么 可 以 考虑 全 盘 加 密 或 文件 系统 加 密 。 先 看 一 下 使 用 Linux 统一 密 钥 设置 
(Linux Unified Key Setup, LUKS) 的 全 盘 加密 。 除 LUKS 之 外 ， 还 有 一 些 用 于 全 盘 加 密 
的 其 他 产品 。 我 们 将 重点 介绍 LUKS ， 因 为 它 是 在 Linux 上 启用 全 盘 加 密 的 开源 工具 。 






























































生产 或 真实 数据 中 ， 不 能 轻易 进行 数据 加 密 的 试验 ， 因 为 一 个 错误 可 能 就 会 
导致 数据 永久 不 可 恢复 。 








大 多 数 LUKS 的 实现 使 用 Linux 发 行 版 中 自 带 的 cryptsetup 和 dm-crypt: 








e cryptsetup 提供 创建 、 配 置 、 管 理 加 密 卷 的 用 户 空间 工具 
。 dm-crypt 提供 加 密 块 设备 的 Linux 内 核 空间 逻辑 


示例 9-2 中 ， 我 们 介绍 了 如 何 使 用 命令 行 在 设备 上 配置 LUKS。 一 些 Linux 发 行 版 具有 的 
工具 可 以 在 操作 系统 安装 时 进行 简单 配置 。 建 立 存储 磁盘 、 增 加 额外 磁盘 或 对 已 有 磁盘 重 
新 分 区 时 ， 启 用 全 盘 加 密 可 以 像 勾 选 一 个 复 选 框 或 选择 一 个 选项 这 么 简单 。 这 隐藏 了 使 用 
cryptsetup 和 dm-crypt 的 复杂 过 程 。 推 荐 尽 可 能 使 用 发 行 版 提供 的 工具 。 

















在 设备 上 建立 LUKS 时 ， 数 据 会 被 覆盖 。 如 果 在 已 经 有 数据 的 设备 上 建立 
LUKS， 首 先 要 对 整个 设备 进行 备份 ， 配 置 完 LUKS 后 再 恢复 数据 。 进 行 
LUKS 配置 时 要 说 慎 行 事 。 























示例 9-2 LUKS 加 密 
(1) 安装 crypsetup。 
在 CentOS/RHEL 中 : 


[root@hadoop01 ~]# yum install cryptsetup-luks 





On Debian/Ubuntu: 
[root@hadoop01 ~]# apt-get install cryptsetup 
(2) 建立 LUKS 存储 设备 。 
[root@hadoop01 ~]# cryptsetup -y -v LuksFormat /dev/xvdc 
WARNING! 


This will overwrite data on /dev/xvdc irrevocably. 


Are you sure? (Type uppercase yes): YES 
Enter LUKS passphrase: 

Verify passphrase: 

Command successful. 


(3) 打开 设备 并 将 其 映射 到 一 个 新 设备 。 
[root@hadoop01 ~]# cryptsetup luksOpen /dev/xvdc data1 
这 在 /dewmapperdatal 上 创建 了 一 个 新 的 映射 设备 。 
(4) 清除 设备 上 的 所 有 数据 (这 主要 是 清除 数据 头 ， 但 清除 所 有 数据 是 个 好 的 安全 方法 ) 。 


[root@hadoop01 ~]# dd if=/dev/zero of=/dev/mapper/data1 























前 面 的 操作 是 在 整个 存储 设备 上 写 0， 因 此 ， 根 据 设备 的 大 小 和 系统 的 速度 ， 
这 会 耗费 儿 分 钟 到 儿 小 时 。 














(5) dd 命令 完成 后 ， 可 以 创建 文件 系统 ， 此 处 使 用 ext4， 但 也 可 以 使 用 XFS 或 其 他 想 要 的 
文件 系统 格式 。 
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[root@hadoop01 ~]# mkfs.ext4 /dev/mapper/datal 
(6) 既然 有 了 一 个 带 文件 系统 的 加 密 设 备 ， 现 在 可 以 像 普通 文件 系统 一 样 加 载 它 了 。 


[root@hadoop01 ~]# mkdir /data/dfs/data1 
[root@hadoop01 ~]# mount /dev/mapper/data1 /data/dfs/data1 
[root@hadoop01 ~]# df -H 
[root@hadoop01 ~]# ls -l /data/dfs/data1 
(7) 对 于 加 载 到 /data/dfs/data[2-N] 的 其 他 设备 ， 重 复 前 面 的 步骤 ， 然 后 使 用 /data/dfs/ 
data[1-N] 来 为 HDFS 存储 安装 Hadoop. 
这 只 是 一 个 示例 ， 它 没有 涵盖 如 何 提供 开机 密码 、 如 何 执行 备份 等 很 多 其 他 方面 。 如 果 需 
要 增加 一 个 磁盘 该 怎么 办 ?如 果 需 要 调整 分 区 大 小 呢 ? 在 生产 部 署 中 ， 这 些 都 是 应 该 考虑 
的 问题 。 


9.2.6 文件 系统 加 密 

很 多 产品 提供 文件 系统 加 密 ， 但 我 们 主要 关注 eCryptfs， 因 为 它 是 Linux 中 一 个 常见 的 开 
源 文件 系统 加 密 方案 。 

eCryptfs 有 两 个 主要 部 分 : ecryptfs-utils 和 ecryptfs, 

e ecryptfs-utils 提供 创建 、 配 置 和 管理 加 密 目 录 的 用 户 空间 工具 

。 ecryptfs 提供 将 加 密 文件 系统 放 到 现 有 文件 系统 目录 之 上 的 Linux 内 核 空 间 逻 辑 

示例 9-3 将 介绍 如 何 使 用 命令 行 配置 eCryptfs。 一 些 Linux 发 行 版 具有 的 工具 能 够 在 操作 
系统 安装 时 进行 简单 配置 。 建 立 存 储 磁盘 、 增 加 额外 磁盘 或 对 已 有 磁盘 重新 分 区 时 ， 可 以 
像 匀 选 一 个 复 选 框 或 选择 一 个 选项 这 么 简单 。 这 隐藏 了 使 用 ecryptfs-utils 和 ecryptfs 
的 复杂 过 程 。 我 们 推荐 尽 可 能 使 用 发 行 版 提供 的 工具 。 

示例 9-3  eCryptfs 加 密 

(1) 安装 eCryptfs-utils。 

在 CentOS/RHEL 中 : 


































































































[root@hadoop01 ~]# yum install ecryptfs-utils 





在 Debian/Ubuntu 中 : 


[root@hadoop01 ~]# apt-get install ecryptfs-utils 


(2) 将 一 个 新 的 加 密 文件 系统 挂 载 到 空 的 HDFS 数据 目录 上 。 


[root@hadoop01 ~]# mount -t ecryptfs /data/dfs/data1 /data/dfs/datal 
Select key type to use for newly created files: 

1) passphrase 

2) tspi 

3) openssl 

Selection: 1 

Passphrase: 





Select cipher: 
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1) aes: blocksize = 16; min keysize = 16; max keysize = 32 (not loaded) 

2) blowfish: blocksize = 16; min keysize = 16; max keysize = 56 (not loaded) 
3) des3_ede: blocksize = 8; min keysize = 24; max keysize = 24 (not loaded) 
4) twofish: blocksize = 16; min keysize = 16; max keysize = 32 (not loaded) 
5) cast6: blocksize = 16; min keysize = 16; max keysize = 32 (not loaded) 

6) cast5: blocksize = 8; min keysize = 5; max keysize = 16 (not loaded) 
Selection [aes]: aes 


Select key bytes: 

1) 16 

2) 32 

3) 24 

Selection [16]: 32 

Enable plaintext passthrough (y/n) [n]: n 

Enable filename encryption (y/n) [n]: n 

Attempting to mount with the following options: 
ecryptfs_unlink_sigs 

ecryptfs_key_bytes=32 

ecryptfs_cipher=aes 

ecryptfs sig- 9808e34a098f3814 

WARNING: Based on the contents of [/root/.ecryptfs/sig-cache.txt], 
it looks like you have never mounted with this key 
before. This could mean that you have typed your 
passphrase wrong. 

Would you like to proceed with the mount (yes/no)? : yes 
Would you like to append sig [9808e34a098f3814] to 
[/root/.ecryptfs/sig-cache.txt] 

in order to avoid this warning in the future (yes/no)? : yes 
Successfully appended new sig to user sig cache file 
Mounted eCryptfs 





























256]. 





mount 命令 过 程 中 ， 你 会 被 要 求 输 入 以 字 节 为 单位 的 密 钥 大 小 。 之 前 我 们 
将 期 望 的 密 钥 大 小 设 为 256 位 ， 由 于 1 字 节 包含 8 位 ， 因 此 此 处 选择 32 位 


(3) 对 于 加 载 到 /data/dfs/data[2-N] 的 其 他 设备 ， 重 复 前 面 的 步骤 ， 然 后 使 用 /data/dfs/ 

















data[1-N] 为 HDFS 存储 安装 Hadoop. 








这 个 例子 没有 涵盖 如 何 提供 开机 密码 、 如 何 进行 备份 或 者 忘记 密码 时 怎么 办 等 其 他 方面 。 











这 些 是 在 大 规模 使 用 加 密 方案 时 需要 额外 考虑 的 
9.2.7 ”Hadoop 中 重要 数据 的 安全 考虑 


如 果 在 为 Hadoop 的 静态 数据 配置 加 密 ， 需 要 注意 ， 敏 感 数据 不 仅 存在 于 HDFS E, (ff 














在 于 运行 在 MySQL, PostgreSQL, SQLite, Oracle 或 Derby 的 shuffle, iu EC, 


临时 文 


件 、 日 志文 件 、 交 换文 件 、 索 引 和 元 数据 库 等 其 他 地 方 。 第 10 章 将 介绍 Hadoop 用 于 提供 





HDFS 之 外 的 数据 集 加 密 的 一 些 地 方 。 
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9.3 动态 数据 加 密 


上 一 太 摘 述 了 如 何 使 用 加 密 保护 静态 数据 ， 但 数据 正在 网 络 上 传输 时 ， 该 怎么 办 呢 ?” 先 举 
一 个 抽象 的 例子 。 当 Alice 和 Bob 还 是 孩子 的 时 候 ， 他 们 喜欢 在 课堂 上 传 纸 条 。 由 于 他 们 
不 是 总 坐 在 一 起 ， 因 此 需要 依赖 其 他 孩子 帮忙 传递 。 他 们 怎么 对 付 那些 可 能 想 在 传 走 纸 条 
之 前 读 一 下 纸 条 内 容 的 爱 管 困 事 的 小 孩 呢 ? 或 者 更 糟 的 是 ， 如 果 被 老师 抓 到 并 且 向 全 班 同 


学 读 出 纸 条 内 容 会 怎样 呢 ? 


作为 一 个 聪明 的 孩子 ，Alice 想 出 一 个 她 自己 的 字母 表 ， 字 母 表 中 包括 一 一 映射 英语 字母 
的 符号 。 他 们 不 用 英语 字母 ， 而 是 用 这 个 自 定义 的 字母 表 写 自己 的 消息 。Alice 和 Bob 可 
以 提前 交换 一 份 映射 关系 ， 其 至 记 下 这 个 字母 表 (ERA 26 个 符号 )。 现 在 ， 当 他 们 传 
出 自己 的 纸 条 时 ， 只 有 拥有 那个 字母 表 副 本 的 人 才能 读 懂 内 容 。 

这 种 方法 简单 有 效 ， 但 不 是 绝对 安全 的 。 更 复杂 的 方法 可 能 包括 使 用 多 个 字母 表 或 随机 映 
射 的 字母 表 ， 以 及 一 个 告诉 接收 者 该 使 用 哪个 映射 的 密 钥 。 这 对 于 传 纸 条 来 说 可 能 是 小 题 
大 做 ， 但 设计 动态 数据 加 密 系 统 时 ， 这 很 重要 。 


9.3.1 传输 层 安全 


传输 层 安 全 (Transport Layer Security，TLS) 是 一 个 用 于 动态 数据 加 密 的 安全 协议 。 
TLS 替代 了 安全 套 接 字 层 (Secure Socket Layer, SSL), SSL 是 动态 数据 加 密 的 一 个 早 
期 标准 。TLS 的 初次 定义 是 在 基于 SSL 3.0 协议 的 RFC 2246 中 ， 它 是 由 Paul Kocher 设计 
的 。 由 于 TLS 和 SSL 拥有 相同 的 历史 ， 所 以 虽然 这 两 个 协议 不 同 ， 但 它们 总 被 交替 使 用 。 
使 用 相同 的 库 实现 SSL 和 TLS 也 很 常见 。 例 如 ，OpenSSL 库 包 含 SSL 2.0 fll SSL 3.0 的 实 
现 ， 也 包含 TLS 1.0、1.1 和 1.2 的 实现 。 
第 4 章 是 启用 强 认证 的 协议 ， 而 SSL/TLS 协议 保护 数据 在 网 络 传输 时 的 安全 。 虽 然 最 常见 
的 是 ，SSL/TLS 以 HTTPS 协议 的 形式 与 Web 流量 联系 在 一 起 ， 但 它 其 实 是 可 用 于 保护 任 
意 套 接 字 连 接 的 通用 协议 。 这 使 得 你 可 以 创建 一 个 加 密 管道 ， 其 他 协议 可 以 放 在 该 管道 之 
上 。 就 像 Kerberos 客户 端 信赖 KDC 一 样 ， 使 用 SSL/TLS 的 客户 端 信赖 中 心 的 证 书 颁发 机 
Jj (certificate authority, CA), 
以 下 是 支撑 SSL/TLS 的 一 些 基本 概念 。 
私 钥 (Private key) 
只 有 签名 证 书 所 有 者 知道 的 非 对 称 加 密 密 钥 。 
公 钥 (Public key) 
公开 的 、 可 用 于 加 密 数 据 的 非 对 称 加 密 密 钥 ， 加 密 的 数据 只 能 被 对 应 的 私 钥 解 密 。 
证 书签 名 请 求 (CSR) 
发 送 到 证 书 颁发 机 构 以 申请 特定 身份 的 加 密 消息 。 
签名 证 书 
RIX CSR 到 CA 的 结果 。 签 名 证 书包 括 与 私 钥 一 起 生成 的 公 钥 的 一 个 副本 。 使 用 自 签 
名 证 书 而 不 是 CA 签名 的 证 书 也 可 以 ， 但 只 在 测试 和 开发 系统 中 才 推 荐 这 么 用 。 
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PKCS #12 
包含 私 钥 和 签名 证 书 的 一 种 文件 格式 。 


虽然 此 处 不 讨论 SSL/TLS 的 很 多 技术 细节 ， 但 接 下 来 的 基本 工作 流程 示例 会 介绍 一 些 应 当 

了 解 的 内 容 。 

1. 生成 新 证 书 

(1) 想 要 接受 SSL/TLS 连接 的 服务 的 管理 员 生 成 一 个 公私 钥 对 。 

(2) 管理 员 之 后 生成 一 个 CSR 并 发 送 到 CA. 

(3) CA 验证 服务 器 / 服务 (有 时 候 是 企业 实体 ) 的 身份 ， 然 后 生产 一 个 签名 证 书 。 

(4) 服务 的 管理 员 之 后 可 以 安装 签名 证 书 。 

2. SSL/TLS 握 手 

(1) Alice 连接 到 Bob 服务 ，Bob 服务 向 Alice 展示 一 个 SSL/TLS 证 书 。 

(2) Alice 在 它 信 任 的 第 三 方 链 中 查找 签发 Bob 的 证 书 的 CA 证 书 。 

(3) Alice 和 Bob 服务 交换 公 钥 ， 然 后 为 当前 会 话 协商 一 个 新 创建 的 对 称 密 铀 。 

(4) Alice 向 Bob 发 送 一 条 信息 ， 该 信息 使 用 通过 安全 交换 得 来 的 对 称 密 钥 进 行动 态 加 密 。 

(5) 即使 Even 捕获 到 从 Alice 到 Bob 的 消息 数据 包 ， 她 也 无 法 对 其 解密 ， 因 为 她 没有 对 称 
密 钥 。 

这 种 设计 的 一 个 众所周知 的 实现 就 是 RSA 密 钥 交换 算法 。 该 算法 中 ， 紧 跟着 私 钥 和 公 

钥 对 生成 之 后 的 是 公 钥 的 安全 交换 ， 它 允许 通信 双方 发 送 只 能 被 指定 接收 者 解密 的 加 密 

消息 。 





















































RSA 的 名 字 由 Ron Rivest、Adi Shamir 和 Leonard Adlemanwho 的 姓氏 而 来 ， 
他 们 1977 年 在 MIT 的 时 候 写 了 关于 该 算法 的 一 篇 论文 。 在 本 书 中 你 可 以 看 
到 ， 除 了 Kerberos 之 外 ， 还 有 很 多 我 们 现在 使 用 的 安全 技术 都 源 于 MIT。 








要 想 更 深入 地 了 解 SSL/TLS， 推 荐 阅读 John Viega, Matt Messier 和 Pravir Chandra 编著 的 
图 书 Network Security with OpenSSL, VAX Scott Oaks 编 间 的 Java Security(Second Edition), 


9.3.2 ”Hadoop 动 态 数据 加 窗 


Hadoop 有 多 种 网 络 通信 方式 ， 包 括 RPC、TCP/IP 和 HTTP, MapReduce, JobTracker, 
TaskTracker, NameNode 和 DataNode 的 API 客户 端 均 使 用 RPC 调用 。HDFS 客户 端 使 用 
TCP/IP 套 接 字 进 行 数据 传输 。HTTP 协议 用 于 MapReduce shufle， 很 多 Web UI 的 守护 进 
程 也 使 用 HTTP 协议 。 

这 三 种 网 络 通信 每 种 都 有 不 同 的 动态 加 密 方法 。 接 下 来 探讨 这 几 种 加 密 方法 的 基础 知识 ， 
第 10 章 会 介绍 一 个 Flume SSL/TLS 配置 的 详细 示例 ， 第 11 章 和 第 12 章 还 会 介绍 Oozie、 
HBase, Impala 和 Hue SSL/TLS 的 使 用 。 


1. Hadoop RPC 加 密 
Hadoop 的 RPC 实现 支持 SASL，SASL 除了 支持 身份 认证 外 ， 还 提供 了 可 选 的 信息 完整 性 
和 信息 加 密 。Hadoop 使 用 Java 的 SASL 实现 ， 支 持 以 下 几 种 模式 。 














数据 保护 | 157 


。 auth: 用 于 客户 端 和 服务 端 之 间 的 身份 验证 
。 auth-int: 用 于 身份 验证 和 完整 性 
。 auth-conf: 用 于 身份 验证 、 完 整 性 和 机 密 性 


Hadoop 中 的 RPC 保护 在 core-site.xml 文件 中 的 hadoop.rpc.protection 属性 中 配置 。 该 
属性 可 以 被 设置 成 如 下 值 。 


e authentication; 默认 值 ， 将 SASL 设置 为 auth 模式 ， 仅 提供 身份 验证 。 
e integrity: 将 SASL 设置 为 auth-int 模式 ， 在 身份 验证 之 外 增加 完整 性 验证 。 
e privacy: + SASL 设置 为 auth-conf 模式 ， 增 加 加 密 以 保证 完全 的 机 密 性 。 


配置 Hadoop RPC 保护 ， 需 要 在 core-site.xml 中 按照 如 下 所 示 进 行 设 置 。( 记 住 ， 需 要 重 
局 所 有 守护 进程 才能 使 该 设置 生效 。) 
<property> 
<name>hadoop.rpc.protection</name> 


<value>privacy</value> 
</property> 


2. HDFS 数 据 传输 协议 加 密 

HDFS 数据 从 一 个 DataNode 传输 到 另 一 个 DataNode 时 ， 或 者 在 DataNode 和 客户 端 之 间 传 输 
时 ， 会 使 用 一 个 名 为 HDFS 数据 传输 协议 (HDFS data transfer protocol) 的 TCP/IP 直 连 套 接 
字 。 数 据 传输 加 密 启用 时 ， 会 使 用 Hadoop RPC 协议 交换 数据 传输 协议 中 使 用 的 加 密 密 钥 。 


配置 数据 传输 加 密 需 要 在 hdfs-site.xml 文件 中 ， 将 dfs.encrypt.data.transfer 设置 为 
true 一 一 只 有 在 DataNode 上 才 要 求 进行 此 更 改 。RPC 会 用 于 交换 加 密 密 钥 ， 因 此 要 设置 
hadoop.rpc.protection 配置 项 为 privacy， 以 保证 启用 RPC 加密， 如 前 所 述 。 加 密 算法 也 
需要 被 配置 成 使 用 AES。 通 过 下 面 的 代码 配置 AES 加 密 : 


<property> 
<name>dfs.encrypt.data.transfer</name> 
<value>true</value> 

</property> 

<property> 
<name>dfs.encrypt.data.transfer.cipher.suites</name> 
<value>AES/CTR/NoPadding</value> 






































</property> 
<property> 
«name» dfs.encrypt.data.transfer.cipher.key.bitlength</name> 
<value>256</value> <!-- can also be set to 128 or 192 --> 
</property> 


{di FH dfs.encrypt.data.trans fer.cipher.suites 设置 AES 加 密 是 2.6 版 本 
加 入 的 一 个 较 新 的 Hadoop 功能 。 对 于 之 前 的 版 本 ， 可 以 设置 dfs.encrypt. 
data.transfer.algorithm 为 3des (默认 值 ) 或 rc4， 以 分 别 选 择 triple-DES 
或 RC4。 


需要 重启 DataNode 和 NameNode 守护 进程 ， 使 设置 生效 。 整 个 过 程 可 以 手动 完成 ， 
Hadoop 发 行 版 可 能 也 会 提供 自动 化 的 方法 启用 HDFS 数据 传输 加 密 。 
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3. Hadoop HTTP 加 密 
谈 到 HTTP 加 密 ， 有 一 个 众所周知 的 成 熟 方法 一 一 使 用 HTTPS 加 密 传输 中 的 数据 。 
HTTPS 是 一 个 使 用 SSL/TLS 的 HTTP 增强 。 虽 然 HTTPS 是 很 标准 化 的 ， 但 在 Hadoop 中 
对 它 进 行 配置 并 非 如 此 。 一 些 Hadoop 组 件 支持 HITPS， 但 它们 的 配置 步骤 并 不 都 一 样 。 


你 可 能 会 回忆 起 我 们 描述 基本 的 SSL/TLS 概念 时 ， 提 到 需要 一 些 额 外 的 文件 ， 例 如 私 钥 、 
证 书 和 PKCS #12 包 。 使 用 Java 时 ， 这 些 文件 存储 在 Java keystore 里 。 


一 些 Hadoop 组 件 对 于 其 他 服务 来 说 既是 HTTPS 服务 端 也 是 客户 端 。 下 面 是 一 些 例 子 : 

e HDFS, MapReduce 和 YARN 守护 进程 既 作 为 SSL 服务 端 也 作为 SSL 客户 端 

。 HBase 守护 进程 只 作为 SSL 服务 端 

。 Oozie 守护 进程 只 作为 SSL 服务 端 

。 Hue 作为 以 上 所 有 的 SSL 客户 端 

我 们 不 深入 讨论 HTTPS 配置 ， 而 重点 关注 MapReduce 加 密 shuffle 和 加 密 Web UI 的 配置 ， 
作为 配置 其 他 组 件 的 出 发 点 。 

4. 加 密 shuffle 和 加 密 web Web UI 

MRI 和 MR2 都 支持 加 密 shuffle, Æ MRI 中 ,设置 core-site.xml 文件 中 的 hadoop.ssl. 
enabled 属性 可 以 启用 加 密 shuffle 和 加 密 Web UI。 在 MR2 中 ， 设 置 hadoop.ssl.enabled 
属性 只 能 启用 加 密 Web UI 的 功能 ， 设 置 mapred-site.xml 文件 中 的 mapreduce.shuffle. 
ssl.enabled 属性 能 够 启用 加 密 shuffle 的 功能 。 






































与 Kerberos 一 样 ， 配 置 HTTPS 时 一 个 很 重要 的 事情 是 ， 要 使 用 完整 的 主机 
名 配置 你 的 服务 器 ， 并 配置 DNS， 使 其 能 够 在 集群 中 正确 解析 这 些 主机 名 。 








在 MR1 fll MR2 1, E core-site.xml 中 的 ssl 属性 都 能 启用 加 密 Web UI。 在 MRI rf, 
该 设置 还 会 启用 加 密 shuffle, 





<property> 
<name>hadoop.ssl.enabled</name> 
<value>true</value> 
<final>true</final> 

</property> 


仅 对 于 MR2， 要 在 mapred-site.xml 中 设置 加 密 shuffle SSL 属性 。 


<property> 
<name>mapreduce. shuffle.ssl.enabled</name> 
<value>true</value> 
<final>true</final> 

</property> 


作为 一 个 可 选项 ， 也 可 以 设置 hadoop.ssl.hostname. verifier 属性 控制 如 何 进行 主机 名 验 
证 。 可 选 的 值 如 下 所 示 。 
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DEFAULT 
主机 名 必须 与 第 一 个 CN 或 任意 SAN (subject-alt name) 匹配 。 如 果 CN 或 某 个 SAN 
中 存在 通配符 ， 则 匹配 所 有 子 域名 。 

DEFAULT_AND_LOCALHOST 
与 DEFAULT 模式 的 作用 一 样 ， 添 加 localhost 主机 ，localhost.localdomain、127.0.0.1 
和 ::1 总 会 通过 主机 名 验证 。 

STRICT 
与 DEFAULT 模式 的 作用 相似 ， 但 只 在 同 级 匹配 通配符 。 例 如 *.example.con 能 够 匹配 


one .exampLe.com， 但 不 能 匹配 two.one.example.com, 








ALLOW_ALL 
接受 任意 主机 名 。 该 模式 不 安全 ， 应 当 仅 在 测试 中 使 用 。 
例如 要 支持 default 加 上 localhost 模式 ， 则 按 如 下 所 示 进 行 配置 ; 


<property> 
<name>hadoop.ssl. hostname. verifier</name> 
«value»DEFAULT. AND LOCALHOST«/value» 
<final>true</final> 

</property> 








还 需要 更 新 ssl-server.xml 和 ssl-client.xml 文件 ， 这 些 文件 通常 在 /etc/hadoop/conf H 
3& P. ssl- server.xml 里 的 设置 如 表 9-2 所 示 。 


表 9-2: ssl-server.xml 的 Keystore 和 Truststore 设 置 



























































属性 默认 值 ”描述 

ssl.server.keystore. type jks keystore 文件 类 型 

ssl.server.keystore. Location NONE keystore 文件 路 径 ， 该 文件 应 当 为 mapred 用 户 所 有 ， 
mapred 用 户 必须 拥有 对 其 的 独占 读 权 限 ( 即 400 权限 ) 

ssl.server.keystore.password NONE keystore 文件 的 密码 

ssl.server.truststore. type jks truststore 文件 类 型 

ssl.server.truststore. Location NONE truststore 文件 路 径 ， 该 文件 应 当 为 mapred 用 户 所 有 ， 
mapred 用 户 拥有 对 其 的 独占 读 权限 (BN 400) 

ssl.server.truststore.password NONE truststore 文件 密码 

ssl.server.truststore.reload.interval 10000 truststore 文件 刷新 间隔 的 毫秒 数 











一 个 完整 配置 的 ssl-server.xml 示例 如 下 : 


<configuration> 

<!-- Server keystore --> 

<property> 
<name>ssl.server .keystore.type</name> 
<value>jks</value> 

</property> 

<property> 
«name»ssl.server.keystore.location«/name» 
«value»/etc/hadoop/ssl/server /hadoop01 . example.com. jks</value> 





Pd 
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</property> 

<property> 
«name»ssl.server.keystore.password«/name» 
<value>super -secret-squirrel</value> 

</property> 


<!-- Server truststore --> 

<property> 
<name>ssl.server.truststore. type</name> 
<value>jks</value> 

</property> 

<property> 
<name>ssl.server.truststore. Location</name> 
<value>/etc/hadoop/ssl/server/truststore. jks</value> 

</property> 

<property> 
<name>ssl.server.truststore. password</name> 
<value>changeit</value> 

</property> 

<property> 
«name»ssl.server.truststore.reload.interval«/name» 
<value>10000</value> 

</property> 


</configuration> 


ssl-client. xml 文件 中 的 配置 见 表 9-3, 
表 9-3: ssl-client.xml 中 的 keystore 和 truststore 设 置 
























































E3 默认 值 ”描述 

ssl.client.keystore.type jks keystore 文件 类 型 

ssl.client.keystore. Location NONE keystore 文件 路 径 ;， 该 文件 应 当 为 mapred 用 户 所 有 ， 
所 有 可 以 运行 MapReduce 作业 的 用 户 应 当 具 有 对 其 的 
读 权 限 〈 即 444 权限 ) 

ssl.client.keystore.password NONE keystore 文件 密码 

ssl.client.truststore. type jks truststore 文件 类 型 

ssl.client.truststore. location NONE truststore 文件 路 径 ， 该 文件 应 当 为 mapred 用 户 所 有 ， 
所 有 可 以 运行 MapReduce 作业 的 用 户 应 当 具 有 对 其 的 
读 权 限 〈 即 444 权限 ) 

ssl.client.truststore.password NONE truststore 文件 密码 

ssl.client.truststore.reload.interval 10000 truststore 文件 刷新 间隔 的 毫秒 数 








一 个 完整 配置 的 ssl-client.xml 文件 如 下 所 示 : 





<configuration> 


<!-- Client keystore --> 

<property> 
<name>ssl.client.keystore. type</name> 
<value>jks</value> 

</property> 

<property> 
<name>ssl.client.keystore. Location</name> 
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<value>/etc/hadoop/ssl/client/hadoop01.example.com. jks</value> 
</property> 
<property> 
<name>ssl.client. keystore. password</name> 
«value»super-secret-squirrel«/value» 
</property> 


<!-- Client truststore --> 

<property> 
<name>ssL.client.truststore. type</name> 
<value>jks</value> 

</property> 

<property> 
<name>ssL.client.truststore. Location</name> 
<value>/etc/hadoop/ssl/client/truststore. jks</value> 

</property> 

<property> 
«name»ssl.client.truststore.password«/name» 
<value>changeit</value> 

</property> 

<property> 
<name>ssl.client.truststore.reload.interval</name> 
<value>10000</value> 

</property> 

</configuration> 


HUE SSL/TLS 时 ， 一 定 要 确保 禁用 明文 服务 。 若 一 个 服务 运行 在 HTTP 80 
端口 ， 又 配置 了 HTTPS 并 运行 在 443 端口 ， 那 么 一 定 要 禁用 运行 在 80 端口 
上 的 HITP。 为 了 更 强 的 保护 级 别 ， 可 以 配置 一 个 防火 墙 (如 iptables 软件 
防火 墙 ) 禁用 对 80 端口 的 访问 。 

















设置 ssl-server.xml 和 ssl-client.xml 文件 后 ， 需 要 重启 MRI 中 的 TaskTracker 和 MR2 
中 的 NodeManager， 使 改动 生效 。 


9.4 数据 销毁 和 删除 


涉及 数据 安全 时 ， 如 何 删除 数据 是 很 重要 的 一 方面 。 如 果 用 户 恰好 要 重复 使 用 集群 中 先前 
被 用 于 处 理 敏 感 数 据 的 服务 器 ， 首 先 需要 销毁 这 些 敏感 数据 。 如 示例 9-2 所 示 ， 使 用 dd 命 
令 将 LUKS 分 区 清 零 。 


使 用 GNU shred 工具 能 够 对 数据 进行 更 彻底 的 销毁 。shred 工具 会 用 随机 模式 对 文件 或 设 
备 进 行 履 写 ， 从 而 更 好 地 混 靖 之 前 写 和 的 数据 。 用 户 可 以 向 shred fex X SX TON, ERA 
HIE RBA) 3 次。 旧版 DoD 5220.22-M 标准 强制 要 求 进行 7 次 覆 写 才能 安全 请 除 敏感 数 
据 。 最 安全 的 履 写 模式 是 Gutmann 方法 ， 该 方法 要 求 使 用 随机 数据 和 特定 数据 结合 的 模式 
进行 35 KES. 

在 大 容量 磁盘 上 进行 35 次 履 写 是 一 项 非常 耗 时 的 工作 。 假 设 硬盘 可 以 恒定 100 MB/s 的 速 
度 写 数据 ， 想 要 完全 履 写 一 块 2 TB 的 磁盘 35 次 ， 将 会 超过 200 小 时 ， 大 概 相 当 于 8.5 天 。 
































处 理 一 个 拥有 数 以 百 计 的 机 器 和 上 千 上 万 块 磁 盘 的 集群 时 ， 即 使 执行 并 行 化 清除 ， 也 是 一 
项 艰巨 的 任务 。 


DoD 标准 在 近年 来 已 经 发 展 到 ， 认 为 对 于 特别 敏感 的 数据 ， 做 再 多 的 履 写 操作 也 不 够 。 这 
种 情况 下 ， 只 有 消 磁 或 物理 销毁 是 可 接受 的 。 还 有 很 重要 的 一 点 是 ， 被 损坏 的 磁盘 不 能 被 
履 写 ， 因 此 只 能 进行 消 磁 或 物理 销毁 。 磁 盘 故 障 很 常见 且 数 据 足 够 敏感 的 大 集群 里 ， 应 当 
有 合适 的 物理 销毁 计划 。 许 多 设备 能 对 磁盘 进行 物理 销毁 ， 还 有 一 些 公司 提供 此 类 现场 服 
务 ， 他 们 会 将 粉碎 设备 带 至 现场 。 


9.5 小结 


本 章 讨论 了 如 何 使 用 加 密 技术 保护 数据 不 受用 户 和 Hadoop 集群 管理 员 的 非 授 权 访问 。 我 
们 对 比 了 保护 静态 数据 和 动态 数据 的 区 别 ， 益 述 了 HDFS 最 近 添 加 的 本 地 静态 数据 加 密 和 
适用 于 早期 版 本 的 替代 方法 ， 以 及 用 于 HDFS 外 部 静态 数据 加 密 的 方法 。 还 展示 了 数据 处 
理 或 查询 过 程 中 生成 的 中 间 数 据 如 何 被 加 密 ， 以 进行 端 到 端 保护 。 

接 下 来 ， 我 们 讨论 了 使 用 Hadoop RPC 加 密 手 段 对 动态 数据 进行 保护 的 方法 ， 继 续 通 
过 学 习 HDFS 数据 传输 协议 加 密 的 形式 学 习 保护 从 HDFS 客户 端 到 DataNode 以 及 多 
个 DataNode 之 间 的 数据 。 我 们 还 讨论 了 如 何 加 密 HTTP 端点 以 及 进行 带 SSL/TLS 的 
MapReduce shuffe。 最 后 ， 介 绍 了 永久 销毁 数据 的 方法 ， 说 明 如 何 将 对 数据 的 保护 延伸 到 
硬件 的 整个 使 用 周期 。 

接 下 来 的 两 章 将 会 分 别 探索 将 数据 安全 扩展 至 数据 导入 管道 和 客户 端 访问 ， 从 而 全 面 保护 
Hadoop 环境 。 
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第 10 章 


数据 导入 安全 





前 面 的 章节 着 重 从 存储 和 数据 处 理 的 角度 讲解 了 Hadoop 安全 。 我 们 假设 你 在 Hadoop 中 
已 在 有 数据 ， 且 想 要 保护 对 这 些 数据 的 访问 ， 或 者 你 想 要 控制 用 户 如 何 分 享 已 有 的 分 析 资 
源 ， 但 还 没有 解释 数据 起 初 是 如 何 被 导入 Hadoop 的 。 


有 许多 种 方法 能 够 将 数据 导入 Hadoop。 最 简单 的 途径 是 使 用 Hadoop 的 put 命令 ， 从 本 地 
文件 系统 (如 本 地 硬盘 或 挂 载 的 NFS) 将 文件 复制 到 HDFS， 如 示例 10-1 所 示 。 


示例 10-1 从 命令 行 导入 文件 
[alice@hadoop01 -]$ hdfs dfs -put /mnt/data/sea*.json /data/raw/sea_fire_911/ 


这 种 方法 适用 于 某 些 数 据 集 ， 但 更 常见 的 做 法 是 ， 从 已 存在 的 关系 型 系统 导 和 数据， 或 设 
置 面向 事件 或 日 志 一 一 的 数据 流 。 对 于 这 些 用 例 ， 用 户 会 分 别 使 用 Sqoop 和 Flume, 


Sqoop 被 设计 为 可 从 关系 型 数据 库 拉 取 数 据 到 Hadoop， 或 从 Hadoop 将 数据 推送 到 远程 数 
据 库 。 这 两 种 情况 下 ，Sqoop 会 运行 一 个 MapReduce 作业 ， 执 行 实际 的 数据 传输 。Sqoop 
默认 使 用 JDBC 驱动 ， 在 映射 任务 和 数据 库 之 间 传 输 数 据 ， 这 称 为 通用 模式 。 通 过 该 模 
式 ， 使 用 Sqoop 对 新 数据 进行 存储 将 变 得 更 容易 ， 唯 一 的 要 求 是 JDBC 驱动 必须 可 用 。 出 
于 性 能 方面 的 原因 ，Sqoop 还 支持 使 用 厂商 的 定制 工具 和 接口 的 连接 器 以 优化 数据 传输 。 
要 使 用 这 些 优化 手段 ， 用 户 可 通过 配置 --direct 选项 启用 直接 (direct) 模式 。 例 如 ， 
对 MySQL 启用 直接 模式 时 ，Sqoop 会 使 用 mysqldump 和 mysqlimport 工具 以 更 高 效 地 从 
MySQL 抽取 数据 ， 或 将 数据 导入 MySQL。 


Flume 是 一 个 分 布 式 服务 ， 能 有 效 收集 、 聚 合 以 及 移动 大 量 事件 数据 ，Flume 用 户 需 要 部 
署 代理 ， 这 些 代 理 是 用 于 传输 数据 的 Java 进程 。 一 个 事件 是 流 经 Flume 的 数据 的 最 小 单 
元 ， 事 件 拥有 一 个 二 进 制 〈 字 节 数 组 ) 的 载荷 ， 和 一 个 可 选 的 、 由 字符 串 键 / 值 对 定义 的 
属性 集 。 每 一 个 代理 都 配置 有 源 模块 、 阱 模块 和 通道 。 源 模块 是 能 够 使 用 外 部 数据 源 的 组 
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件 ， 它 既 能 从 外 部 数据 源 拉 取 事件 ， 也 能 接受 从 外 部 数据 源 推送 来 的 事件 。Flume 源 会 连 
接 到 一 个 通道 ， 该 通道 使 得 阱 模块 能 够 使 用 这 些 来 自 源 模块 的 事件 。 这 个 通道 是 完全 被 动 
的 ， 它 从 源 模 块 接 受 数据 并 一 直 保 存 数据 ， 直 到 阱 模块 使 用 掉 数 据 为 止 。 一 个 Flume BERE 
将 事件 传输 至 外 部 数据 存储 或 进程 。 

Flume 包括 使 用 Avro RPC (远程 过 程 调用 ) 的 AvroSource (Avro Ji) 和 AvroSink (Avro 
BE) 以 传输 事件 。 为 了 构建 复杂 的 、 分 布 式 的 数据 流 ， 可 对 某 一 个 Flume 代理 的 AvroSink 
进行 配置 ， 使 之 向 另 一 个 Flume 代理 的 AvroSource 发 送 事 件数 据 。 虽 然 Flume 能 够 支持 
多 种 源 模块 和 阱 模块 ， 但 实现 agent 间 数 据 传输 功能 的 主要 还 是 AvroSource 和 AcroSink。 
因此 ， 接 下 来 的 讨论 内 容 将 限定 在 它们 之 间 。Flume 的 可 靠 性 由 通道 的 配置 决定 。 对 于 内 
存 中 的 数据 流通 道 ， 速 度 的 优先 级 高 于 稳定 性 ， 而 位 于 磁盘 上 的 通道 则 支持 完全 的 可 恢复 
性 。 图 10-1 展示 了 一 个 双 层 Flume 数据 流 的 内 部 组 件 ， 包 括 代理 和 它们 之 间 的 连接 。 




































































图 10-1; Flume 架构 





因为 Sqoop 和 Flume 可 能 被 用 于 传输 敏感 数据 ， 所 以 考虑 导入 管道 在 整体 部 署 中 的 安全 性 
是 很 重要 的 ， 尤 其 需要 关注 导入 管道 的 机 密 性 、 完 整 性 和 可 用 性 (CIA)。 机 密 性 是 指 ， 将 
对 数据 的 访问 限制 在 一 个 拥有 授权 的 用 户 集 之 中 ， 通 常 系统 会 将 身份 验证 、 授 权 和 加 密 结 
合 在 一 起 ， 以 保证 机 密 性 的 实现 。 完 整 性 是 指 ， 用 户 能 在 多 大 程度 上 信任 这 些 数据 没有 被 
算 改 ， 大 部 分 系统 使 用 校 验 和 或 签名 的 方式 验证 数据 完整 性 。 可 用 性 是 指 ， 保 持 信 息 资 源 
的 可 使 用 性 ， 在 数据 导入 场景 中 ， 可 用 性 意味 着 导入 系统 面 对 一 些 容量 损失 时 具有 和 鲁 棱 
性 。 也 就 是 说 ， 系 统 处 理 一 些 下 行 系统 或 服务 的 突然 中 断 时 ， 具 有 保存 传输 数据 的 能 


10.1 导入 数据 的 完整 性 


分 析 过 程 的 价值 与 数据 的 价值 直接 相关 ， 而 数据 只 有 在 可 信 时 才 具 有 价值 ， 因 此 ， 数 据 的 
完整 性 是 关键 。Hadoop 是 复杂 的 分 布 式 系统 ， 所 以 毫 不 意外 地 ， 数 据 导 入 流 也 经 常 具有 
同等 的 复杂 性 和 分 布 性 。 这 意味 着 数据 能 在 许多 地 方 被 使 用 、 损 坏 和 自 改 。 你 的 具体 威胁 
模型 将 决定 导入 管道 所 需 的 完整 性 的 等 级 。 大 部 分 用 例 都 会 关 广 意外 损坏 的 数据 ， 而 对 于 
这 些 情况 ， 对 文件 或 记录 的 一 个 简单 的 校 验 和 就 是 够 了 。 为 了 防止 数据 被 恶意 用 户 自 改 ， 
可 以 添加 加 密 签名 和 /或 加 密 记录 。 
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Flume 确保 数据 完整 性 的 一 个 主要 方法 是 ， 使 用 其 内 建 的、 可 靠 的 通道 实例 。Flume 通道 
提供 一 个 非常 简单 的 接口 ， 类 似 于 一 个 无 限 长 队列 。 通 道 使 用 put(Event event) 方法 将 一 
个 事件 导入 一 个 通道 ， 使 用 take() 方法 将 下 一 事件 从 通道 取出 。 默 认 的 通道 实现 是 一 个 
内 存 通道 ， 当 且 仅 当 Flume 的 代理 保持 运行 时 ， 该 实现 才 是 可 靠 的。 这 意味 着 ， 进 程 或 服 
务 骨 溃 时 ， 数 据 就 会 丢失 。 此 外 ， 由 于 事件 始终 不 离开 内 存 ，Flume 会 假定 事件 不 被 自 改 ， 
因而 并 不 计算 或 验证 事件 的 校 验 和 。 


对 于 那些 关注 数据 的 可 靠 传 输 和 完整 性 的 用 户 ，Flume 提供 了 一 种 基于 文件 的 通道 。 文 件 
通道 本 质 上 实现 了 一 个 预 写 日 志 ， 每 个 事件 被 导入 通道 时 ， 该 日 志 被 持久 地 存储 到 稳定 的 
存储 器 。 除 了 将 事件 存 入 磁盘 之 外 ,文件 通道 还 为 每 个 事件 计算 一 个 校 验 和 ， 并 将 该 校 验 
和 与 事件 一 起 写 入 预 写 日 志 。 事 件 从 通道 中 被 取出 时 ， 它 的 校 验 和 会 被 检验 ， 以 确保 该 事 
件 没有 被 损坏 。 这 提供 了 一 定 程度 的 完整 性 保障 ， 然 而 这 种 保障 对 于 经 过 通道 传输 的 事件 
完整 性 来 说 仍然 比较 局 限 。 目 前 ，Flume 将 事件 从 AvroSink 的 一 个 代理 传递 给 AvroSource 
的 另 一 个 代理 时 ， 并 不 计算 校 验 和 。TCP 协议 会 保护 数据 包 不 受 意外 损坏 ， 然 而 一 个 能 够 
控制 数据 包 的 中 间 人 仍 能 以 不 会 被 检测 到 的 方式 破坏 数据 。 将 了 解 到 ，Flume 没有 能 力 加 
密 RPC 协议 ， 而 加 密 RPC 恰好 能 够 防止 未 被 检测 的 中 间 人 攻击 。 


继续 讨论 Sqoop 提供 的 完整 性 之 前 ， 快 速 了 解 一 下 Flume 如 何 实现 可 用 性 。Flume 允许 用 
户 创 建 一 个 能 够 保证 “至 少 发 送 一 次 ”消息 处 理 语义 的 分 布 式 数据 流 。 严 格 地 讲 ， 只 要 第 

个 代理 能 够 与 外 部 的 源 通 信 ，Flume 就 能 够 与 特定 数据 源 进行 通信 。 事 件 在 代理 间 被 依 
次 处 理 时 ， 任 何 下 游 代理 的 停机 时 间 都 可 以 通过 使 用 一 个 故障 切换 阱 处 理 器 进行 处 理 ， 该 
处 理 器 以 下 游 的 两 个 或 两 个 以 上 的 Flume 代理 为 目标 。 也 可 以 使 用 负载 均衡 的 阱 处 理 器 同 
时 进行 故障 处 理 和 负载 均衡 。 这 种 处 理 器 将 会 把 事件 循环 或 随机 地 发 送 到 下 游 阱 方 点 的 集 
合 上 ， 如 果 下 游 的 阱 节点 出 现 故 障 ， 那 么 该 处 理 器 会 尝试 再 下 一 个 阱 布点 。 


这 两 种 机 制 都 改善 了 整体 数据 流 的 可 用 性 ， 但 它们 都 不 能 保证 任何 茶 个 特定 事件 的 可 用 
性 。 有 人 建议 可 增加 一 个 复制 通道 ， 在 告知 源 节 点 收 到 数据 前 ， 将 事件 复制 到 多 个 代理 。 
但 除非 这 些 复制 已 经 完成 ， 否 则 事件 在 Flume 节点 宕 机 时 仍 会 不 可 用 。 除 非 稳定 存储 文件 
的 通道 日 志 数 据 不 可 恢复 ， 否 则 事件 是 不 会 丢失 的 。 创 建 一 个 导入 流 时 ， 记 住 这 些 注意 事 
项 很 重要 。 我 们 将 在 10.4 市 进一步 了 解 这 些 权衡 措施 。 


与 Flume 不 同 ，Sqoop 本 身 不 支持 验证 导入 数据 的 完整 性 。Sqoop 的 优势 在 于 ， 它 可 以 利 
用 同一 个 向 HDFS 写 数据 的 进程 从 数据 库 拉 取 数 据 ， 这 意味 着 ， 发 生 数据 损坏 的 概率 要 比 
复杂 的 Flume 流 相 对 小 一 些 。 正 如 下 一 节 将 讲解 的 ， 可 以 通过 开局 SSL 加 密 保证 Sqoop 的 
数据 机 密 性 。 这 同样 也 提高 了 破坏 传输 中 数据 的 难度 ， 从 而 改善 数据 完整 性 ， 然 而 并 不 能 
帮助 验证 写 和 人 HDFS 的 数据 与 数据 库 中 数据 是 否 一 致 。 当 前 验证 Sqoop 导入 的 主流 方法 是 
往返 验证 表 一 一 从 数据 库 到 Hadoop， 再 返回 数据 库 。 可 以 通过 计算 原始 表 的 校 验 和 与 往 
返 表 的 校 验 和 验证 数据 没有 丢失 。 遗 憾 的 是 ， 这 个 过 程 开 销 很 高 ， 并 且 可 能 需要 进行 多 次 
全 表 扫 描 ， 具 体 扫描 次 数 取 决 于 数据 库 的 校 验 性 能 。 


10.2 ”数据 导入 的 机 密 性 


导入 数据 流 的 机 密 性 等 级 依赖 于 导入 的 数据 类 型 、 关 注 的 威胁 模型 和 任何 可 能 遵循 的 监管 
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要 求 。 数 据 被 导入 时 ， 在 网 络 中 的 传输 过 程 以 及 在 中 间 服 务 器 的 存储 容易 受到 非 授 权 用 户 
的 访问 。 基 至 在 一 个 受信 任 的 合作 方 网 络 中 ， 为 了 防止 非 授权 用 户 有 机 会 嗅 探 网 络 流量 # 
获取 敏感 数据 ， 某 些 数据 必须 始终 被 加 密 。 同 样 地 ， 数 据 传输 所 经 服务 器 的 管理 员 可 能 也 
没有 权限 访问 某 些 被 导入 的 数据 。 为 了 防止 这 些 情 况 下 的 非 授 权 访 问 ， 应 当 将 数据 在 到 达 
稳定 的 存储 之 前 进行 加 密 。 


10.2.1 














Flume 加 密 





为 了 解决 数据 在 网 络 传输 过 程 中 的 非 授 权 访 问 问题 ，Flume 支持 在 AvroSource 和 AvroSink 
上 启用 SSL 加 密 。 除 了 提供 加 密 功 能 外 ， 还 可 以 给 AvroSource 和 AvroSink 配置 信任 策 
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只 将 数据 发 往 一 个 受信 任 的 源 。 假 设 需要 从 一 个 运行 在 fLume01.exampLe.com 
































上 的 Flume 代理 向 运行 在 f lume02.example.com 上 的 代理 发 送 事 件 ， 首 先 需要 使 用 openssl 
命令 行 工 具 为 fume02 创建 一 个 RSA 私 钥 ， 如 示例 10-2 所 示 。 


示例 10-2 




















创建 一 个 私 钥 


[alice@flume02 ~]$ mkdir certs 

[alicegflume02 ~]$ cd certs 

[alice@flumeQ2 certs]$ openssl genrsa -des3 -out flume02.key 1024 
Generating RSA private key, 1024 bit long modulus 


PPP 十 十 十 十 十 个 


e is 65537 (0x10001) 

Enter pass phrase for flume02.key: 

Verifying - Enter pass phrase for flume02.key: 
[alicegflume02 certs]$ 


示例 10-3 中 ， 生 成 一 个 证 书签 名 请 求 ， 因 而 会 有 一 个 证 书 被 分 发 给 刚刚 创建 的 私 钥 。 


示例 10-3 




















创建 证 书签 名 请 求 


[alice@flume02 certs]$ openssl req -new -key flume02.key -out flume02.csr 
Enter pass phrase for flume02.key: 

You are about to be asked to enter information that will be incorporated 
into your certificate request. 

What you are about to enter is what is called a Distinguished Name or a DN. 
There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 


Country Name (2 letter code) [XX]:US 

State or Province Name (full name) []:California 

Locality Name (eg, city) [Default City]:San Francisco 

Organization Name (eg, company) [Default Company Ltd]:Cluster, Inc. 
Organizational Unit Name (eg, section) []: 


Common 


Name (eg, your name or your server's hostname) []:flume02.example.com 


Email Address []:admin@example.com 


Please 


enter the following 'extra' attributes 


to be sent with your certificate request 
A challenge password []: 
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An optional company name []: 
[alice@flume@2 certs]$ 


一 旦 有 了 证 书签 名 请 求 ， 就 可 以 生成 一 个 由 受信 任 密 钥 签名 的 证 书 。 示 例 中 ， 没 有 根 签 名 
的 权限 ， 所 以 只 生成 一 个 自 签名 证 书 〈 给 证 书签 名 的 密 钥 与 请 求证 书 的 密 钥 相 同 ) 。 实 际 
部 署 中 ， 应 当 将 证 书签 名 请 求 发 送 至 公司 的 签名 认证 机 构 ， 他 们 会 提供 完成 签名 的 证 书 。 











自 签 名 证 书 如 示例 10-4 所 示 。 


示例 10-4 ”创建 一 个 自 签名 证 书 


[alice@flume@2 certs]$ openssl x509 -req -days 365 -in flume02.csr V 
-signkey flume02.key -out flume02.crt 
Signature ok 
subject=/C=US/ST=California/L=San Francisco/O-Cluster, Inc./CN-flume02.cluster. 
com/emailAddress-admin(example.com 
Getting Private key 
Enter pass phrase for flume02.key: 
[alicegflume02 certs]$ 








我 们 将 在 fume02 上 使 用 刚刚 创建 的 密 钥 和 证 书 配置 AvroSink， 但 首先 需要 创建 一 





truststore 供 flume01 验证 密 钥 的 真实 性 。 实 际 部 署 中 ，truststore 可 以 由 CA (认证 中 心 











) 
Flume 集群 的 下 属 CA 在 进行 签名 时 一 起 加 载 。 这 次 将 使 用 Java 的 keytool， 将 证 书 导 


Java 的 truststore。 


示例 10-5 ”创建 一 个 Java truststore 


[alice@flume02 certs]$ keytool -import -alias flume02.example.com V 
-file flume02.crt -keystore flume.truststore 
Enter keystore password: 
Re-enter new password: 
Owner: EMAILADDRESS=admin@example.com, CN-flume02.example.com, O="Cluster, Inc. 
", L=San Francisco, ST=California, C=US 
Issuer: EMAILADDRESS=admin@example.com, CN-flume02.example.com, O-"Cluster, Inc 
", L=San Francisco, ST=California, C=US 
Serial number: 86a6cb314f86328b 
Valid from: Tue Jun 24 11:31:50 PDT 2014 until: Wed Jun 24 11:31:50 PDT 2015 
Certificate fingerprints: 
MD5: B6:4A:A7:98:9B:60:3F:A2:5E:0B:BA:BA:12:B4:8D:68 
SHA1: AB:F4:AB:B3:2D:E1:AF: 71: 28:8B:60:54:2D:C1:C9:A8: 73:18:92:31 


SHA256: B1:DD:C9:1D:AD:57:FF:47:28:D9:7F:A8:A3:DF:9C:BE:30:C1:49:CD:85:D3: 


95:AD:95:36:DC:40:4C:72:15:AB 
Signature algorithm name: SHA1withRSA 
Version: 1 
Trust this certificate? [no]: yes 
Certificate was added to keystore 
[alice@flume@2 certs]$ 





将 认证 和 密 钥 用 于 Flume 之 前 ， 需 要 将 它们 加 载 为 一 个 Java 可 读 的 文件 格式 ， 通 常会 是 





Java keystore 的 .jks 文件 或 PCKS12 的 .p12。 由 于 Java 的 keytool 不 支持 密 钥 和 证 


的 





分 开导 入 ， 使 用 openssl 生成 PKCS12 文件 并 配置 Flume 直接 使 用 该 文件 ， 如 示例 10-6 


所 示 。 





示例 10-6 使 用 密 钥 和 证 书 创建 一 个 PKCS12 文件 


[alicegflume02 certs]$ openssl pkcs12 -export -in flume02.crt V 
-inkey flume02.key -out flume02.p12 -name flume02.example.com 

Enter pass phrase for flume02.key: 

Enter Export Password: 

Verifying - Enter Export Password: 

[alicegflume02 certs]$ 


配置 Flume 使 用 证 书 之 前 ， 需 要 将 PKCSI2 文件 移 至 Flume 的 配置 目录 ， 如 示例 10-7 所 示 。 


示例 10-7 复制 PKCS12 文件 至 /etc/flume-ng/ssl 目录 


[rootQfLume02 ~]# mkdir /etc/flume-ng/ssl 

[rootQüflume02 ~]# cp -alice/certs/flume02.p12 /etc/flume-ng/ssl 
[rootQüflume02 ~]# chown -R root:flume /etc/flume-ng/ssl 
[rootQflume02 ~]# chmod 750 /etc/flume-ng/ssl 

[root@flume02 ~]# chmod 640 /etc/flume-ng/ssl/flume02.p12 


示例 10-8 中 ， 需 要 将 truststore 复制 到 f Lume01.example.com 上 ， 这 样 阱 会 知道 它 能 够 信任 
位 于 flume02.example.com 上 的 源 。 


示例 10-8 将 truststore 复制 到 fume01.example.com 
[rootQfLume02 ~]# scp -alice/certs/flume.truststore flume01.example.com:/tmp/ 


接 下 来 ， 示 例 10-9 中 ， 将 truststore 转移 至 Flume 的 配置 目录 。 


示例 10-9 ”转移 truststore 至 /etc/flume-ng/ssl 


[rootQfLume01 ~]# mkdir /etc/flume-ng/ssl 

[rootQfLume01 ~]# mv /tmp/flume.truststore /etc/flume-ng/ssl 
[rootQfLume01 ~]# chown -R root:flume /etc/flume-ng/ssl 
[rootüflume01 ~]# chmod 750 /etc/flume-ng/ssl 

[root@flume01 ~]# chmod 640 /etc/flume-ng/ssl/flume.truststore 


现在 ，PKCS12 和 truststore 文件 都 已 到 位 ， 可 以 配置 Flume 的 源 和 阱 ， 首 先 从 flume01. 
example.com 上 的 阱 开始 。 关 键 配置 参数 如 下 所 示 。 


SSL 
启用 SSL 时 设 为 true, JH SSL 时 ， 还 需要 对 trust-aLL-certs、truststore、truststore- 
password 和 truststore-type 等 参数 进行 配置 。 











trust-all-certs 
要 禁用 证 书 验 证 时 ， 将 其 设 为 true。 强 烈 推荐 将 该 参数 设 为 false， 因 为 这 样 能 确保 阱 
节点 会 检查 与 其 连接 的 源 确 实 正在 使 用 一 个 受信 任 的 证 书 。 
truststore 
将 其 设置 为 Java truststore 文件 的 绝对 路 径 。 如 果 为 空 ，Flume 将 会 使 用 默认 的 Java 认 
证 中 心 文件 。Oracle JRE 装载 有 $JAVA_HOME/jre/lib/security/cacerts 文件 ，Flume 将 
使 用 该 文件 ， 除 非 在 SJAVA HOME/jre/lib/security/jssecacerts 创建 一 个 指定 位 置 的 
truststore 文件 。 
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truststore-password 


truststore-type 





将 该 参数 设 为 保护 truststore 的 口令 。 





将 该 参数 设 为 JKS 或 另 一 种 受 支 持 的 truststore 类 型 。 


具体 配置 如 示例 10-10 所 示 。 


示例 10-10 Avro SSL 阱 的 配置 


al 


al. 
al. 
al. 
al. 
al. 
al. 
al. 
al. 
al. 
al. 


sinks 
sinks 
sinks 


sinks. 
sinks. 
sinks. 
sinks. 


s1. 
s1. 
ST. 
.S1. 
ssi; 
s1. 


s1 


s1. 
s1. 


.sinks = s1 
channels 
sinks. 
sinks. 


= c1 

type = avro 

channels = c1 

hostname = flume02.example.com 

port = 4141 

ssl = true 

trust-all-certs = false 

.truststore = /etc/flume-ng/ssl/flume.truststore 
truststore-password = password 

truststore-type = JKS 


在 flume02.example.com 上 ， 可 以 配置 AvroSource 配置 ， 为 使 用 证 书 和 私 钥 来 监听 连接 。 
密 钥 配 置 参数 如 下 所 示 。 


ssl 














将 其 设 为 true 以 启用 SSL。 启 用 SSL 时 ， 还 需要 对 keystore, keystore-password 和 
keystore-type 参数 进行 配置 。 


keystor 


e 





将 该 参数 设 为 Java keystore 的 绝对 路 径 。 


keystore-password 


ae 


keystore-type 
设 为 JKS 或 PKCS12, 








将 其 


WAN 





示例 10-11 


a2. 


a2 


a2 


a2. 
a2. 


等 该 参数 设 为 保护 keystore 的 口令 。 


Avro SSL 源 的 配置 


sources 


sources. 
sources. 
sources. 
sources. 


sources 
.Sources 
Sources 
Sources 


- r1 


.Channels = c1 
a2. 
a2. 
a2. 
a2. 
a2. 


ri.type = avro 
ri.channels = c1 
ri.bind = 0.0.0.0 
ri.port = 4141 


.r1.ssl = true 

.r1.keystore = /etc/flume-ng/ssl/flume02.p12 
.F1.keystore-password = password 
.r1.keystore-type = PKCS12 





除了 保护 传输 中 的 数据 ， 可 能 还 需要 确保 数据 在 Flume 传输 通道 中 被 写 入 磁盘 时 是 加 密 
的 。 一 个 方法 是 ， 在 Flume 通道 中 写 数 据 的 磁盘 上 使 用 支持 全 盘 加 密 的 第 三 方 加 密 工 具 ， 














也 可 以 通过 dm-crypt/LUKS' 完成。 然而， 全 盘 加 密 也 可 能 是 过 度 保 护 ， 特 别 是 当 Flume 不 
是 使 用 该 日 志 磁 盘 的 的 唯一 服务 ， 或 不 是 所 有 事件 都 需要 被 加 密 时 。 

对 于 那些 使 用 场景 ，Flume 提供 了 “ 仅 加 密 被 文件 通道 使 用 的 日 志文 件 ” 的 功能 。 当 前 的 
实现 只 支持 Counter 模式 下 无 填充 的 AES 加 密 〈(AES/CTR/NOPADDING)， 但 未 来 有 可 能 
再 添加 其 他 的 加 密 算法 和 模式 。 目 前 ，Flume 只 支持 JCE keystore 的 实现 (JCEKS) 作为 
密 钥 提供 程序 ， 但 也 不 排除 添加 其 他 密 钥 支持 程序 。 这 需要 对 Flume 本 身 进 行 修改 ， 因 为 
现在 并 没有 能 支持 添加 密 钥 提供 程序 的 可 插 拔 接口 。 除 了 这 些 限制 ，Flume 支持 密 钥 轮换 ， 
帮助 改进 其 安全 性 。 因 为 文件 通道 的 日 志文 件 的 生命 周期 相对 较 短 ， 可 以 视 需 要 尽 可 能 频 
繁 地 轮换 窗 钥 以 满足 需求 。 为 了 确保 用 以 前 密 钥 写 入 的 日 志文 件 仍然 可 读 ， 在 最 新 的 窗 钥 
被 用 于 写 入 时 ， 也 必须 保留 旧 的 密 钥 用 于 读 取 文件 。 


要 设置 Flume 的 文件 通道 磁盘 加 密 ， 先 生成 密 钥 ， 如 示例 10-12 所 示 。 
示例 10-12 ”为 文件 通道 的 磁盘 加 密生 成 密 铀 









































[rootQfLume01 ~]# mkdir keys 
[root@flume01 ~]# cd keys/ 
[root@flume01 keys]# keytool -genseckey -alias key-0 -keyalg AES -keysize 256 V 
-validity 9000 -keystore flume.keystore -storetype jceks 
Enter keystore password: 
Re-enter new password: 
Enter key password for <key-0> 
(RETURN if same as keystore password): 
Re-enter new password: 
[root@flume01 keys ]# 








示例 中 ， 将 keystore 的 口令 设 为 keyStorePassword， 将 密 钥 口令 设 为 keyPassword。 然 而 





在 真实 环境 的 部 署 中 ， 应 当 使 用 更 强 的 口令 。keytool 不 会 显示 正在 输入 的 字符 ， 也 不 会 





显示 我 们 熟悉 的 星 号 字符 ， 因 此 需 谨 慎 输 入 口令 。 还 可 以 分 别 通 过 命令 行 的 -storepass 
keyStorePassword 和 -keypass keyPassword 命令 提供 keystore 口令 和 密 钥 口 令 。 通 常 不 推 




















荐 在 命令 行 中 写 入 口令 ， 因 为 它们 一 般 都 会 被 写 入 shell 的 历史 记录 文件 ， 而 该 文件 不 能 被 
视 作 安全 的 。 接 下 来 ， 将 keystore 复制 到 Flume 的 配置 目录 ， 如 示例 10-13 所 示 。 


示例 10-13 复制 keystore 到 Flume 的 配置 目录 





[rootQfLume01 ~]# mkdir /etc/flume-ng/encryption 

[rootQfLume01 ~]# cp ~/keys/flume.keystore /etc/flume-ng/encryption/ 
[rootüflume01 ~]# cat > /etc/flume-ng/encryption/keystore. password 
keyStorePassword 

AD 

[rootüflume01 ~]# cat > /etc/flume-ng/encryption/key-0.password 
keyPassword 

AD 

[root@flume01 ~]# chown -R root:flume /etc/flume-ng/encryption 
[root@flume01 ~]# chmod 750 /etc/flume-ng/encryption 

[root@flume01 ~]# chmod 640 /etc/flume-ng/encryption/* 
[rootüflume01 ~]# 





ime 


re 





= 























: 为 了 使 设置 dm-crypt/LUKS 更 容易 ， 可 以 使 用 cryptsetup 工具 。 通 过 cryptsetup 工具 设置 dmcrypt 














LUKS 的 说 明 可 以 在 cryptsetup 的 FAQ 页面 找到 (http://bit.ly/1Hc9zCz) 。 
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要 注意 ， 还 创建 了 包含 keystore 口令 和 密 钥 口令 的 文件 。 屏幕 显示 ^D 时 ， 应 当 按 住 





m 


Control 键 并 键入 字母 D。 生 成 这 些 文件 有 助 于 保护 口令 ， 因 为 它们 不 能 被 能 够 读 取 Flume 
配置 文件 的 同一 个 用 户 所 访问 。 现 在 配置 Flume 以 启用 文件 通道 加 密 ， 如 示例 10-14 所 示 。 








示例 10-14 加 密 文件 通道 的 配置 


a1.channels = c1 
a1.channels.c1.type = file 
a1.channels.ci.checkpointDir = /data/01/flume/checkpoint 
al.channels.c1.dataDirs = /data/02/flume/data, /data/03/flume/data 
al.channels.ci.encryption.cipherProvider = AESCTRNOPADDING 
ali.channels.ci.encryption.activeKey = key-0 
a1.channels.c1l.encryption.keyProvider = JCEKSFILE 
al.channels.ci.encryption.keyProvider.keyStoreFile = 
/etc/flume-ng/encryption/flume. keystore 
a1.channels.c1.encryption.keyProvider.keyStorePasswordFile = 
/etc/flume-ng/encryption/keystore. password 
a1.channels.c1.encryption.keys = key-0 
al.channels.ci.encryption.keys.key-O.passwordFile = 
/etc/flume-ng/encryption/key-0.password 


示例 10-14 至 示例 10-16 展示 了 一 些 配置 内 容 (ai.channels.ci. encryption. 
keyProvider.keyStorePassword file, ai.channels.ci.encryption.keys.key- 
O.passwordfile) 被 分 成 两 行 。 这 是 为 了 改进 示例 的 可 读 性 ， 但 在 Flume 配置 
文件 中 是 无 效 的 。 所 有 配置 的 参数 名 和 值 都 必须 位 于 同一 行 。 





随 着 时 间 的 推移 ， 有 必要 轮换 至 新 的 加 密 密 钥 ， 以 降低 旧 密 钥 遭 到 破解 的 风险 。Flume 3x 
持 配 置 多 个 解密 密 钥 ,但 仅 使 用 最 新 的 密 钥 用 于 加 密 。 为 了 保证 轮换 密 钥 前 写 入 的 旧 日 志 
文件 仍然 可 读 ， 旧 的 窗 钥 必须 保留 。 示 例 10-15 中 ， 可 以 生成 一 个 新 窗 钥 并 更 新 Flume, 








使 之 成 为 活动 密 钥 。 


示例 10-15 ”为 磁盘 上 的 文件 通道 加 密生 成 一 个 新 密 铀 


[root@flume01 ~]# keytool -genseckey -alias key-1 -keyalg AES -keysize 256 V 
-validity 9000 -keystore /etc/flume-ng/encryption/flume.keystore V 
-storetype jceks 

Enter keystore password: 

Enter key password for <key-1> 

(RETURN if same as keystore password): 

Re-enter new password: 

[root@flume01 ~]# cat > /etc/flume-ng/encryption/key-1.password 

key1Password 

AD 

[root@flume01 ~]# chmod 640 /etc/flume-ng/encryption/* 

[root@flume@1 ~]# 


现在 ， 已 经 向 keystore 添加 了 新 密 钥 ， 并 且 创 建 了 相关 的 密 钥 口令 文件 ， 下 面 可 以 更 新 


Flume 的 配置 以 使 这 个 新 密 钥 生 效 变 为 活动 密 钥 ， 如 示例 10-16 所 示 。 








示例 10-16 ”加 密 文件 通道 的 新 密 钥 配置 


al. 
al. 
al. 
al. 
al. 
al. 
al. 
al. 


channels = c1 


channels. 
channels. 
channels. 
channels. 
channels. 
channels. 
channels. 


c1. 
Gis 
c1. 
c1. 
c1. 
el, 


c1 


type - file 

checkpointDir - /data/01/flume/checkpoint 

dataDirs - /data/02/flume/data,/data/03/flume/data 
encryption.cipherProvider - AESCTRNOPADDING 
encryption.activeKey - key-1 
encryption.keyProvider - JCEKSFILE 


.encryption.keyProvider.keyStoreFile - 
/etc/flume-ng/encryption/flume.keystore 


a1.channels.c1.encryption.keyProvider.keyStorePasswordFile = 


/etc/flume-ng/encryption/keystore. password 


a1.channels.c1.encryption.keys = key-0 key-1 


a1.channels.c1.encryption.keys.key-@.passwordFile 
/etc/flume-ng/encryption/key-0.password 

a1.channels.c1.encryption.keys.key-1.passwordFile = 
/etc/flume-ng/encryption/key-1.password 


以 下 是 文件 通道 加 密 的 配置 参数 。 





encryption.activeKey 

用 于 加 密 新 数据 的 密 钥 别 名 。 
encryption.cipherProvider 

密码 算法 提供 程序 的 类 型 。 支 持 的 类 型 : AESCTRNOPADDING 
encryption.keyProvider 

密 钥 提 供 程序 的 类 型 。 支 持 的 类 型 .JCEKSfiLE 
encryption.keyProvider.keyStorefile 

keystore 文件 的 路 径 。 
encryption.keyProvider.keyStorePasswordfile 

含有 keystore 口令 的 文件 的 路 径 。 
encryption.keyProvider.keys 


有 限 长 的 曾 用 或 现 用 的 密 钥 别 名 列表 。 


encryption.keyProvider.keys.«key».passwordfile 


包含 密 钥 key 的 口令 文件 的 可 选 路 径 。 如 果 忽 略 该 参数 ，keystore 口令 文件 中 的 
被 用 于 所 有 密 钥 。 


























LI 
4p 
Np 


10.2.2  SqoopJIn zz 


与 Flume 不 同 ，Sqoop 没有 自己 原生 的 对 线 上 加 密 的 支持 。 这 并 不 奇怪 ， 因 为 Sqoop 依赖 
区 动 和 专门 针对 数据 库 优 化 的 连接 器 。 然 而 ，Sqoop 可 以 被 配置 为 连接 到 
一 个 支持 SSL 的 数据 库 并 启用 SSL， 这 将 启用 对 JDBC 通道 中 数据 的 加 密 。 


上 述 的 支持 并 不 仅 限于 通用 的 JDBC 实现 。 如 有 果 用 于 实现 --direct 模式 的 工具 支持 SSL, 


于 标准 的 JDBC J 
































甚至 可 以 在 使 用 直接 连接 器 的 时 候 加 密 数据 。 
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下 面 看 看 如 何 使 用 SSL 加 密 Sqoop f MySQL 之 间 的 流量 '。 示 例 10-17 和 示例 10-18 假设 
MySQL 已 配置 SSL 。 如 果 尚 未 这 样 设置 ， 可 以 从 MySQL 连接 器 的 下 载 页 面 (http://dev. 
mysql.com/downloads/connector/j/5.1.html) 下 载 MySQL JDBC 驱动 。 下 载 完 成 后 ， 将 其 安 
装 到 一 个 Sqoop 可 用 的 位 置 ， 如 示例 10-17 所 示 。 


示例 10-17 为 Sqoop 安装 MySQL JDBC 驱动 


[root@sqoop01 ~]# SQOOP HOME-/usr/lib/sqoop 

[root@sqoop01 ~]# tar -zxf mysql-connector -java-*.tar.gz 

[root@sqoop01 ~]# cp mysql-connector- java-*/mysql-connector- java-*-bin.jar V 
$(SQO0P. HOME) /lib 

[root@sqoop01 ~]# 


驱动 安装 到 位 后 ， 可 以 使 用 Sqoop 的 list-tables 命令 测试 连接 ， 如 示例 10-18 所 示 。 
































示例 10-18 ”用 list-tables 测试 SSL 连接 


[alice@sqoop01 -]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 

[alice@sqoop01 ~]$ URI="${URI}?verifyServerCertificate=false" 

[alice@sqoop01 ~]$ URI="${URI}&useSSL=true" 

[alice@sqoop01 ~]$ URI="${URI}&requireSSL=true" 

[alice@sqoop01 -]$ sqoop list-tables --connect ${URI} V 
--username sqoop -P 

Enter password: 

cities 

countries 

normcities 

staging cities 

visits 

[alice@sqoop01 ~]$ 


设置 MySQL JDBC 驱动 使 用 SSL 加 密 的 参数 ， 包 含 在 传递 给 Sqoop AY JDBC URI 选项 中 。 
verifyServerCertificate 
该 参数 控制 客户 端 是 否 验证 MySQL 服务 器 的 证 书 。 如 果 设 为 true， 还 需要 对 参数 
trustCertificateKeyStoreUrl, trustCertificateKeyStoreType 和 trustCertificateKey - 
StorePassword 进行 设置 。 























useSSL 

该 参数 设 为 true 时 ， 客 户 端 会 尝试 使 用 SSL 5 server 进行 会 话 。 
requireSSL 

该 参数 设 为 true 时 ， 若 服务 器 不 支持 SSL， 客 户 端 会 拒绝 连接 。 
示例 10-19 中 ， 试 着 通过 SSL 导入 一 个 表 。 




















注 1: Sqoop 示例 基于 Kathleen Ting 和 Jarek Jarcec Cecho 合 著 的 Apache Sqoop Cookbook。 使 用 的 示例 文件 
和 脚本 可 以 从 Apache Sqoop Cookbook 项目 页 面 (http://github.com/jarcec/Apache-Sqoop-Cookbook ) 
获取 。 

注 2: 如 果 MySQL 尚未 配置 SSL， 可 以 按照 MySQL 手册 (http://dev.mysql.com/doc/refman/5.7/en/ssl-connections. 
html) 中 的 说 明 进 行 配 置 。 











示例 10-19 通过 SSL 导入 一 个 MySQL 表 


[alice@sqoop01 ~]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 
[alice@sqoop01 ~]$ URI-"S(URIJ?verifyServerCertificate-false" 
[alice@sqoop01 ~]$ URI="${URI}&useSSL=true" 
[alice@sqoop01 ~]$ URI="${URI}&requireSSL=true" 
[alice@sqoop01 ~]$ sqoop import --connect S{URI} V 

--username sqoop -P --table cities 
Enter password: 


14/06/27 16:09:07 INFO mapreduce.ImportJobBase: Retrieved 3 records. 
[alice@sqoop01 ~]$ hdfs dfs -cat cities/part-m-* 

1,USA,Palo Alto 

2,Czech Republic,Brno 

3,USA, Sunnyvale 

[alice@sqoop01 ~]$ 


可 以 看 出 ， 这 和 在 JDBC URI 中 包含 SSL 参数 一 样 简 单 。 可 以 通过 查看 作业 历史 服务 器 页 
面 中 的 作业 配置 确认 SSL 参数 在 作业 执行 时 被 使 用 ， 如 图 10-2 所 示 。 


(NET Configuration for MapReduce Job 7 


job_1402500258459_0006 











» Application hdfs//namenode.cluster.com:8020/userhistory/done/20 14/06/27 /000000/job_ 1402500258459 0006. conf.xml 

= Job Show 20 : entries Search: idbc.uri 
Counters key a value source -— 
Configuration mapreduce jdbc.url jdbcmysqt//mysql.cluster.com/sqoop? job xmi 和 
Map tasks verifyServerCertificate -false&useSSL-trueArequireSSL-trueAzeroDateTimeBehavior-convertToNull programatically 

* Tools Showing 1 to 1 of 1 entries (fitered from 657 total entries) 














10-2: 作业 历史 服务 器 页 面 ， 展 示 了 SSL JDBC 配置 的 使 用 


前 例 将 verifyServerCertificate 设 为 false。 这 有 助 于 我 们 测试 ， 但 实际 的 产品 设置 中 ， 
我 们 更 愿意 能 够 验证 正在 连接 的 服务 器 确实 是 希望 连接 的 那 一 台 。 示 例 10-20 将 这 个 参数 
设 为 true。 


示例 10-20 ”没有 truststore 时 证 书 验 证 失败 


[alice@sqoop01 ~]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 
[alice@sqoop01 ~]$ URI="S${URI}?verifyServerCertificate=true" 
[alice@sqoop01 ~]$ URI="${URI}&useSSL=true" 
[alice@sqoop01 ~]$ URI="S${URI}&requireSSL=true" 
[alice@sqoop01 ~]$ sqoop list-tables --connect ${URI} V 
--username sqoop -P 
Enter password: 
14/06/30 10:52:29 ERROR manager.CatalogQueryManager: Failed to list tables 
com.mysql. jdbc.exceptions. jdbc4.CommunicationsException: Communications link failure 





The last packet successfully received from the server was 1,469 milliseconds ago. Th 
e last packet sent successfully to the server was 1,464 milliseconds ago. 
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at sun.reflect.NativeConstructorAccessorImpl.newInstanceO(Native Method) 


at org.apache.sqoop.Sqoop.main(Sqoop. java: 240) 
Caused by: javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorExcep 
tion: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderExc 
eption: unable to find valid certification path to requested target 


[alice@sqoop01 ~]$ 


ENED, IOPEFT ARI, (AA Java 标准 证 书 的 truststore 不 认为 我 们 的 MySQL 服务 器 证 
书 是 可 信任 证 书 。 诊 断 这 些 信任 类 型 问题 时 ， 要 注意 的 关键 错误 消息 是 unable to find 
valid certifica tion path to requested target。 这 通常 意味 着 ， 服 务 器 没有 得 到 我 们 受 
信任 证 书 的 签名 。 最 简单 的 处 理 方法 是 ， 将 MySQL 服务 器 的 证 书 导 入 truststore， 并 且 配 
置 MySQL JDBC 驱动 在 连接 时 使 用 该 truststore， 如 示例 10-21 所 示 。 


示例 10-21 通过 本 地 truststore 列 出 表 



































[alice@sqoop01 ~]$ keytool V 
-import \ 
-alias mysql.example.com \ 
-file mysql.example.com.crt \ 
-keystore sqoop-jdbc.ts 
Enter keystore password: 
Re-enter new password: 
Owner: EMAILADDRESS=admin@example.com, CN=mysql.example.com, O="Cluster, Inc.", 
L=San Francisco, ST=California, C=US 
Issuer: EMAILADDRESS-admin(jexample.com, CN=mysql.example.com, O="Cluster, Inc. 
, L=San Francisco, ST=California, C=US 
Serial number: d7f528349bee94f3 
Valid from: Fri Jun 27 13:59:05 PDT 2014 until: Sat Jun 27 13:59:05 PDT 2015 
Certificate fingerprints: 
MD5: 38:9E:F4:D0:4C:14:A8:DF:06:EC:A5:59: 76:D1:0C:21 
SHA1: AD:D0:CB:E2:70:C1:89:83:22:32:DE:EF:E5:2B:E5:4F:7E:49:9E:0A 
Signature algorithm name: SHA1withRSA 
Version: 1 
Trust this certificate? [no]: yes 
Certificate was added to keystore 
[alice@sqoop01 ~]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 
[alice@sqoop01 ~]$ URI="${URI}?verifyServerCertificate=true" 
[alice@sqoop01 -]$ URI="${URI}&useSSL=true" 
[alice@sqoop01 -]$ URI="S{URI}&requireSSL=true" 
[alice@sqoop01 ~]$ URI-"S(URIj&trustCertificateKeyStoreUrl-file:sqoop-jdbc.ts 
[alice@sqoop01 ~]$ URI-"S(URIj&trustCertificateKeyStoreType-JKS" 
[alice@sqoop01 ~]$ URI-"S(URIj&trustCertificateKeyStorePassword-password" 
[alice@sqoop01 -]$ sqoop list-tables --connect ${URI} V 
--username sqoop -P 
Enter password: 
cities 
countries 
normcities 
staging cities 
visits 
[alice@sqoop01 ~]$ 





本 例 中 ， 首 先 创建 一 个 包含 MySQL 服务 器 证 书 的 truststore， 然 后 将 MySQL JDBC 驱动 指 
向 该 truststore。 这 要 求 在 JDBC URI 中 设置 一 些 额 外 的 参数 ， 如 下 所 示 。 
trustCertificateKeyStoreUrl 

一 个 指向 keystore 位 置 的 URL, 1% keystore 用 于 验证 MySQL 服务 器 证 











d 
o 


trustCertificateKeyStoreType 

用 于 验证 MySQL 服务 器 证 书 的 keystore 类 型 。 
trustCertificatekeyStorePassword 

用 于 验证 MySQL 服务 器 证 书 的 Keystore 密码 。 


注意 ， 我 们 使 用 了 一 个 相对 路 径 file:<URI> 指定 truststore 的 位 置 ， 它 在 下 一 个 示例 中 很 
重要 。 列 出 表 之 后 ， 试 着 在 示例 10-22 中 进行 一 次 导入 。 


示例 10-22 通过 truststore FAK 


[alice@sqoop01 ~]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 
[alice@sqoop01 ~]$ URI="S${URI}?verifyServerCertificate=true" 
[alice@sqoop01 ~]$ URI="S${URI}&useSSL=true" 
[alice@sqoop01 ~]$ URI="${URI}&requireSSL=true" 
[alice@sqoop01 ~]$ URI="S${URI}&trustCertificateKeyStoreUrl=file: sqoop-jdbc.ts" 
[alice@sqoop01 ~]$ URI="S{URI}&trustCertificateKeyStoreType=JKS" 
[alice@sqoop01 ~]$ URI="S{URI}&trustCertificateKeyStorePassword=password" 
[alice@sqoop01 ~]$ sqoop import \ 

-files sqoop-jdbc.ts \ 

--connect S(URI) V 

--username sqoop V 

-P \ 

--table cities 
Enter password: 








14/06/30 10:57:13 INFO mapreduce.ImportJobBase: Retrieved 3 records. 
[alice@sqoop01 ~]$ 


与 上 一 个 列 出 表 的 示例 相 比 ， 变 化 不 是 很 大 。 除 了 使 用 了 一 样 的 URI 之 外 ， 我 们 还 增加 
了 一 个 -file 命令 行 参数 。-file 选项 会 将 文件 列表 放 入 Hadoop 的 分 布 式 缓存 ， 该 分 布 
式 缓存 会 把 文件 复制 到 集群 中 的 每 一 个 节点 ， 并 将 其 放置 到 正 运行 任务 的 工作 目录 下 。 这 
项 功能 很 有 用 ， 因 为 这 意味 着 我 们 给 trustCertificateKeyStoreUrl 的 配置 对 本 地 机 器 和 
执行 任务 的 所 有 节点 都 同样 有 效 ， 这 也 正 是 为 什么 我 们 想 用 truststore 作为 启动 Sqoop 作 
业 的 工作 目录 。 


加 密 支 持 并 不 仅 限 于 普通 模式 ， 像 MySQL 的 直接 模式 就 使 用 了 支持 SSL 的 mysqldump 和 
mysqlimport 工具 。 示 例 10-23 在 直接 模式 中 启用 SSL. 


示例 10-23 ”使 用 直接 模式 通过 truststore 导入 表 


[alice@sqoop01 ~]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 

[alice@sqoop01 ~]$ URI="${URI}?verifyServerCertificate=true" 

[alice@sqoop01 ~]$ URI="${URI}&useSSL=true" 

[alice@sqoop01 ~]$ URI="${URI}&requireSSL=true" 

[alice@sqoop01 ~]$ URI="S${URI}&trustCertificateKeyStoreUrl=file:sqoop-jdbc.ts" 
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[alice@sqoop01 ~]$ URI-"S(URIj&trustCertificateKeyStoreType-JKS" 
[alice@sqoop01 ~]$ URI-"S(URIj&trustCertificateKeyStorePassword-password" 
[alice@sqoop01 -]$ sqoop import V 
-files sqoop-jdbc.ts,mysql.example.com.crt V 
--connect S(URI) V 
--username sqoop V 
-P \ 
--table cities \ 
--direct | 
zs 
--ssl V 
--ssl-ca=mysql.example.com V 
--ssl-verify-server-cert 
Enter password: 


14/06/30 15:32:43 INFO mapreduce.ImportJobBase: Retrieved 3 records. 
[alice@sqoop01 ~]$ 


同样 ， 这 与 上 一 个 示例 也 很 相似 。 主 要 的 区 别 在 于 ， 我 们 将 mysql. example.com.crt 添 
加 到 了 -file 选 项， 因而 节点 会 拥有 mysqldump 工具 要 求 的 PEM 格式 的 证 书 。 还 添加 
了 --direct 选项 以 启用 直接 模式 。 最 后 ， 增 加 了 --ssl、--ssl-ca=mysql.example.com 和 
--ssl-verify-server-cert 选项 。- - 标记 意味 着 其 后 所 有 参数 应 当 被 传 给 实现 直接 模式 的 
工具 。 剩 余 的 参数 将 会 被 mysqldump 用 于 启用 SSL, Bet CA 证 书 位 置 以 及 让 mysqldump 验 
证 MySQL 服务 器 的 证 书 。 


10.3 导入 工作 流 


目前 ， 我 们 已 经 了 解 了 数据 通常 如 何 导入 Hadoop 环境 ， 也 了 解 了 导入 管道 的 机 密 性 、 完 
整 性 和 可 用 性 的 不 同 选 项 。 然 而 ， 导 入 数据 是 一 个 典型 的 全 局 ETL (抽取 、 转 换 和 加 载 ，) 
过 程 ， 因 此 在 全 局 ETL 流 的 上 下 文 环 境 中 必须 进行 额外 的 考虑 。 

我 们 之 前 忽略 的 一 个 细 市 是 ，Sqoop 这 类 工具 是 从 哪里 启动 的 。 通 常情 况 下 ， 你 会 希望 限 
制 用 户 能 够 访问 的 接口 。 正 如 在 3.4.1 节 描 述 的 那样 ， 有 很 多 种 访问 远程 协议 的 途径 能 够 
得 到 保护 ， 并 且 有 具体 的 架构 依赖 于 用 户 的 需求 。 最 常见 的 限制 边界 服务 (包括 导 入 ) 的 
方法 是 ， 在 边界 节点 上 部 署 Flume 和 Sqoop 这 类 服务 。 边 界 节 点 只 不 过 是 既 能 访问 内 部 
Hadoop 集群 网 络 、 又 能 访问 外 部 网 络 的 服务 器 。 典 型 的 集群 部 署 将 会 通过 主机 或 网 络 防 
火 墙 限制 对 特殊 主机 的 特殊 端口 的 访问 。 数 据 导 入 场景 中 ， 我 们 能 在 执行 并 行 导入 时 利用 
仍然 部 署 着 数据 拉 取 机 制 〈 例 如 Sqoop) 的 边界 节点 ， 限 制 向 Hadoop 集群 推送 数据 ， 从 
而 避免 向 外 部 暴露 敏感 的 Hadoop 服务 。 


“只 允许 远程 登录 边界 节点 ”在 很 大 程度 上 降低 了 用 户 物 理 登 入 Hadoop 集群 的 风险 ， 这 使 
得 能 在 减少 潜在 危险 角色 数量 的 同时 ， 能 够 将 精力 集中 在 监测 和 安全 审计 工作 上 。 生 成 数 
据 流 时 ， 通 常 应 设置 专用 ETL 账户 或 组 执行 全 局 的 工作 流 。 对 于 那些 需要 精确 审计 的 组 
织 ， 推 荐 使 用 相互 独立 的 用 户 账户 发 起 操作 ， 这 样 能 使 操作 行为 更 容易 追踪 到 个 人 。 

除了 Flume 和 Sqoop 之 外 ， 边 界 节 点 还 可 能 运行 有 代理 服务 或 其 他 远程 用 户 协 议 。 例 如 ， 
HDFS 支持 HttpFS 代理 服务 ， 该 服务 会 向 外 开放 一 个 供 HDFS 使 用 的 读 / 写 REST 接口 。 
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与 HDFS 一 样 ，HttpFS 完全 支持 基于 Kerberos 的 身份 验证 和 HDFS 内 建 的 权限 控制 。 在 
一 个 边界 节点 上 运行 HttpFS， 能 够 允许 对 HDFS 中 存储 的 数据 进行 有 限 的 访问 ， 甚 至 可 以 
被 用 于 某 些 数据 的 导入 。 


另 一 个 常见 的 边界 节点 服务 是 Oozie。Oozie 是 一 个 规划 和 执行 工作 流 的 工具 。 由 Sqoop fF 
业 、Hive 查询 、Pig 脚本 以 及 MapReduce 作业 组 成 的 复杂 工作 流 可 以 被 组 合成 独立 的 单 
元 ， 并 且 通 过 Oozie 被 可 靠 地 规划 和 执行 。Oozie 还 提供 了 一 个 支持 基于 Kerberos 身份 验 
证 的 REST 接口 ， 并 能 安全 地 向 边界 节点 开放 。 


一 些 用 例 中 ， 有 必要 在 把 文件 推送 到 HDFS、HBase 或 Accumulo 之 前 ， 将 其 放置 在 一 个 边 
界 节点 上 。 创 建 这 些 本 地 磁盘 (有 时 是 NFS 挂 载 的 磁盘 ) 目录 时 ， 应 使 用 标准 的 操作 系统 
控制 手段 ， 将 对 数据 的 访问 限制 为 仅 限 授权 用 户 。 这 里 要 再 次 强调 ， 应 当 定 义 一 个 或 多 个 
ETL 组 ， 并 且 将 对 原始 数据 的 访问 范围 限制 为 相对 受信 任 的 组 。 


10.4 企业 架构 


对 于 数据 导入 的 这 些 讨论 帮助 我 们 明确 了 这 样 一 个 有 用 的 观点 : Hadoop 从 来 不 是 部 署 在 
真空 之 中 的 。Hadoop 不 可 避免 地 要 与 已 存在 的 和 正在 演变 的 企业 架构 相 结 合 ， 这 意味 着 ， 
不 能 只 考虑 Hadoop 自身 安全 。 决 定 如 何 保护 集群 时 ， 必 须 研 究 已 经 应 用 于 数据 和 系统 的 
需求 ， 这 些 需求 由 企业 安全 标准 、 威 胁 模型 和 特殊 数据 的 集 敏 感度 所 驱动 。 需 要 特别 指出 
的 是 ， 如 果 数 据 源 本 身 就 毫 无 安全 可 言 ， 那 么 封锁 Hadoop 集群 或 集群 的 数据 导入 管道 是 
毫 无 意义 的 。 


这 与 企业 引进 数据 仓库 系统 的 情况 一 样 。 一 个 典型 的 部 署 中 ， 应 用 程序 和 支持 它们 的 事务 
处 理 系统 是 紧 耦 合 的 。 这 使 得 安全 集成 简单 而 直接 ， 因 为 对 后 端 数据 库 的 访问 通常 被 限制 
在 生成 和 处 理 这 些 数 据 的 应 用 程序 中 。 一 旦 事务 性 数据 重要 到 需要 备份 时 ， 一 些 安全 细 市 
就 被 重视 起 来 。 然 而 ， 这 仍然 能 算得 上 相对 简单 的 集成 ， 因 为 可 以 限制 备份 数据 仅 能 被 那 
些 已 拥有 对 源 系统 访问 权 的 受信 任 管理 员 访 问 。 

试图 把 数据 从 事务 处 理 系统 移动 至 分 析 型 数据 仓库 ， 以 便 独 立 执行 分 析 应 用 时 ， 事 情 变 得 
有 趣 起 来 。 若 使 用 传统 的 数据 仓库 系统 ， 需 要 将 事务 数据 库 的 安全 配置 与 新 数据 仓库 的 特 
性 进行 对 比 。 一 旦 数据 被 导入 仓库 ， 该 机 制 就 会 工作 得 很 好 ， 并 且 可 以 将 同样 的 分 析 工 作 
应 用 于 基于 数据 库 授权 的 Sentry。 然 而 ， 想 知道 如 何 处 理事 务 系 统 和 分 析 平 台 之 间 的 数据 
时 ， 必 须 加 以 注意 。 


对 这 些 传统 系统 的 使 用 可 以 归结 为 保护 ETL 网 格 ， 正 是 这 些 ETL 网 格 将 数据 加 载 到 数据 
仓库 。 很 明显 ， 对 ETL 网 格 所 做 的 考虑 同样 适用 于 Hadoop 集群 的 导入 管道 ， 特 别 是 必须 
考虑 : 在 何 时 何 地 的 加 密 措施 对 保护 数据 机 密 性 来 说 才 是 必要 的 。 还 需要 对 维持 数据 的 完 
整 性 格外 加 以 重视 。 在 传统 的 ETL 网 络 中 ， 这 尤其 重要 ， 因 为 这 种 传统 网 格 可 能 没有 足 
够 的 存储 容量 在 传输 之 后 仍 保留 原始 数据 。 最 后 ， 还 需要 对 ETL 网 格 的 可 用 性 加 以 注意 ， 
从 而 确保 不 会 影响 源 系统 或 数据 仓库 满足 用 户 要 求 的 性 能 。 这 正 与 之 前 讨论 的 过 程 完全 一 
样 ， 即 导入 数据 到 Hadoop 的 一 般 过 程 和 使 用 Flume 和 Sqoop 的 特定 过 程 。 


此 外 ， 需 要 重申 ， 这 个 工作 是 双向 的 ， 仅 在 Hadoop 导入 或 进行 不 属于 源 系统 的 查询 时 才 
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应 用 安全 控制 策略 是 不 合理 的 。 正 如 在 已 经 开始 进行 已 有 事务 性 或 分 析 性 工具 的 安全 保障 
设计 工作 后 ， 却 留 着 Hadoop 门户 大 开 一 样 不 合理 。 考 虑 所 有 因素 的 最 佳 时 机 是 在 设计 导 
入 管道 的 时 候 ， 因 为 这 正 是 Hadoop 与 其 余 企 业 架 构 融 为 一 体 的 地 方 ， 是 比 对 安全 和 威胁 
模型 ， 并 仔细 考虑 整体 Hadoop 部 署 的 安全 架构 的 完美 时 机 。 


10:5. “小 结 


本 章 集中 于 数据 从 外 部 源 到 Hadoop 的 传输 。 简 单 讨论 批量 文件 导入 后 ， 我 们 继续 聚焦 于 
使 用 Flume 进行 基于 事件 的 数据 导入 ， 以 及 使 用 Sqoop 从 关系 型 数据 库 导入 数据 。 可 以 发 
现 ， 这 些 通用 的 数据 导入 机 制 能 保护 传输 中 的 数据 完整 性 。 本 章 的 一 个 关键 点 是 ， 集 群 内 
部 对 数据 的 保护 需要 延伸 至 从 数据 源 导入 的 全 部 过 程 。 这 种 保护 模式 应 当 与 源 系统 的 保护 
等 级 相 匹 配 。 


我 们 已 经 了 解 了 数据 导入 和 集群 内 部 数据 的 保护 ， 下 面 学 习 数 据 保护 的 最 后 一 项 内 容 : 保 
护 数 据 提取 过 程 和 客户 端的 访问 。 
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数据 提取 和 客 尸 端 访 问安 全 








Hadoop 的 核心 宗旨 之 一 是 ， 将 处 理工 作 带 到 数据 所 在 之 处 ， 而 不 是 反 其 道行 之 。 因 此 ， 我 
们 的 焦点 一 直 都 是 “集群 内 的 安全 如 何 实现 ”。 本 章 将 讲解 保护 Hadoop 集群 的 最 后 一 部 分 
内 容 ， 也 就 是 保护 客户 端的 访问 和 数据 提取 的 过 程 。 虽 然 对 Hadoop 数据 的 大 多 数 处 理 过 
程 在 集群 内 完成 ,但 用 户 是 通过 外 部 工具 访问 数据 的 ， 并 且 在 一 些 诸如 企业 数据 仓库 的 用 
例 中 ， 还 可 能 需要 专用 工具 以 提取 海量 数据 。 


客户 端 访问 的 最 基本 形式 是 命令 行 工具 。 正 如 3.3.4 节 的 “边界 市 点 ”， 集 群 中 ， 将 外 部 访 
问 限制 在 很 小 的 一 个 边界 节点 集合 中 是 很 常见 的 。 用 户 使 用 ssh 远程 登录 一 个 边界 节点 ， 
并 且 使 用 多 种 命令 行 工具 与 集群 交互 。 表 11-1 是 最 常用 的 一 些 命令 的 简要 描述 。 


表 11-1: 客户 端 访问 的 常用 命令 行 工 具 






















































































命令 描述 

hdfs dfs -put <src> <dst> 将 本 地 文件 复制 到 HDFS 

hdfs dfs -get <src> <dst> 从 HDFS 下 载 文件 到 本 地 系统 

hdfs dfs -cat <path> 打印 文件 内 容 到 标准 输出 

hdfs dfs -Ls <path> 列 出 某 路 径 下 的 文件 和 目录 

hdfs dfs -mkdir «path» 在 HDFS 中 创建 一 个 目录 

hdfs dfs -cp <src> «dst» 把 HDFS 中 的 文件 复制 到 一 个 新 的 地 址 
hdfs dfs -mv <src> <dst> JE HDFS 中 的 文件 移动 到 一 个 新 的 地 址 
hdfs dfs -rm <path> 从 HDFS 中 删除 一 个 文件 

hdfs dfs -rmdir <path> 从 HDFS 中 删除 一 个 目录 

hdfs dfs -chgrp <group> <path> 改变 一 个 文件 或 目录 的 组 

hdfs dfs -chmod <mode> <path> 改变 一 个 文件 或 目录 的 权限 

hdfs dfs -chown <owner>[:<group>] <path> 改变 一 个 文件 或 目录 的 拥有 者 
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( 续 ) 
























































命令 描述 

yarn jar <jar> [<main-class>] <args> 运行 一 个 JAR 文件 ， 通 常用 于 启动 MapReduce 作业 或 其 
他 YARN 作业 

yarn application -list 列 出 正在 运行 的 YARN 应 用 

yarn application -kill <app-id> 终止 一 个 YARN 应 用 

mapred job -List 列 出 一 个 正在 运行 的 MapReduce 作业 

mapred job -status <job-id> 获取 一 个 MapReduce 作业 的 状态 

mapred job -kill <job-id> 终止 一 个 MapReduce f£: 

hive 启动 一 个 Hive SQL shell (不 推荐 ;推荐 使 用 beeline) 

beeline 给 Hive 或 Impala 启动 一 个 SQL shell 

impala-shell 启动 一 个 Impala SQL shell 

hbase shell 启动 一 个 HBase shell 

accumulo shell 启动 一 个 Accumulo shell 

oozie job 运行 、 检 查 和 终止 Oozie 作业 

sqoop export 从 HDFS 导出 表 到 数据 库 

sqoop import 从 数据 库 导 入 表 到 HDFS 








11.1 Hadoop 命 令 行 接口 


核心 的 Hadoop 命令 行 工 具 (hdfs、yarn 和 mapred) 只 支持 Kerberos 或 者 使 用 委托 令 
牌 的 方法 进行 身份 验证 。 验 证 这 些 命令 最 简单 的 方式 是 ， 在 命令 执行 前 使 用 kinit 取得 
Kerberos 的 票据 授予 票据 (TGT)。' 如 果 执 行 Hadoop 命令 之 前 没有 获得 TGT， 你 将 会 看 
到 示例 11-1 所 示 的 相似 错误 ， 特 别 是 failed to find any Kerberos tgt, 

















示例 11-1 在 没有 Kerberos TGT 的 情况 下 执行 Hadoop 命令 


[alice@hadoop01 ~]$ hdfs dfs -cat movies.psv 

cat: Failed on local exception: java.io.IOException: javax.security.sasl. 
SaslException: GSS initiate failed [Caused by GSSException: No valid credentials 
provided (Mechanism level: Failed to find any Kerberos tgt)]; Host Details : local 
host is: "hadoop01.example.com/172.25.2.196"; destination host is: "hadoop02. 
example.com":8020; 


下 面 看 看 Alice 先 使 用 kinit 取得 TGT 之 后 的 情况 (示例 11-2). 


示例 11-2 在 kinit 之 后 执行 Hadoop 命令 


[alice@hadoop01 ~]$ kinit Password for alice@EXAMPLE.COM: [alice@hadoop01 ~]$ 
hdfs dfs -cat movies.psv 1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/ 
titleexact?Toy%20Story%20( ... 


这 次 命令 被 成 功 执行 ， 并 且 打 印 文件 movies.psv 中 的 内 容 。 使 用 Kerberos 进行 身份 验证 的 
好 处 是 ， 用 户 不 需要 为 每 个 命令 单独 进行 验证 。 如 果 在 会 话 开 始 时 使 用 kinit， 或 将 Linux 


























注 1: 回顾 表 4-1 的 TGT 相关 内 容 。 











系统 配置 为 登录 时 获取 Kerberos TGT， 则 可 以 运行 任意 数量 的 Hadoop 命令 ， 所 有 身份 验 
证 工作 将 在 幕后 完成 。 


虽然 通常 不 这 么 做 ， 但 命令 行 工具 可 以 使 用 委托 令 牌 进行 HDFS 的 身份 验证 。 为 了 获得 委 
托 令 牌 ， 需要 通过 Kerberos 的 身份 验证 。HDEFS 提供 了 一 种 命令 行 工具 ， 以 获取 委托 令 牌 
并 保存 到 一 个 文件 。 设 置 环境 变量 HADOOP TOKEN filE LOCATION 之 后 ， 该 令 牌 就 能 被 用 于 
随后 的 HDFS 命令 。 委 托 令 牌 的 使 用 如 示例 11-3 所 示 。 


示例 11-3 ”使 用 委托 令 牌 执行 Hadoop 命令 
[aliceQhadoop01 ~]$ kinit 
Password for aliceQEXAMPLE. COM: 
[aliceQhadoop01 -]$ hdfs fetchdt --renewer alice nn.dt 
14/10/21 19:19:32 INFO hdfs.DFSClient: Created HDFS DELEGATION TOKEN token 2 for 
alice on 172.25.3.210:8020 
Fetched token for 172.25.3.210:8020 into file:/home/alice/nn.dt 
[alice@hadoop01 ~]$ kdestroy 
[alice@hadoop01 ~]$ export HADOOP_TOKEN_FILE_LOCATION=nn.dt 
[alice@hadoop01 ~]$ hdfs dfs -cat movies.psv 
1|Toy Story (1995)|01-Jan-1995| | http: //us.imdb.com/M/title-exact?Toy%20Story%20( 














委托 令 牌 同 基 于 Kerberos 的 身份 验证 是 完全 独立 的 。 委 托 令 牌 一 旦 被 分 发 ， 默认 具有 
24 小 时 的 有 效 期 ， 并 且 可 以 被 续 至 最 多 7 天 。 可 以 通过 设置 dfs.namenode.delegation. 
token. renewal-interval 改变 令 牌 的 初始 有 效 期 ， 该 参数 表示 了 令 牌 需要 续 租 前 还 剩 下 的 
毫秒 数 。 可 以 设置 dfs.namenode.deLegation.token.max-Lifetime 改变 令 牌 的 最 大 更 新 周 
期 ， 该 配置 参数 的 单位 也 是 毫秒 。 这 些 令 牌 独 立 于 Kerberos 系统 ， 所 以 如 果 Kerberos 凭证 
在 KDC 中 是 激活 的 ， 委 托 令 牌 会 在 它们 的 指定 生命 周期 中 始终 有 效 ， 没 有 任何 管理 方法 
能 强制 取消 委托 令 牌 。 

Hadoop 命令 行 工具 没有 单独 的 授权 模型 ， 而 依赖 于 集群 的 配置 控制 哪些 内 容 是 用 户 能 够 
访问 的 。 要 复习 Hadoop 身份 验证 ， 可 回顾 6.1 市 ~6.3 市 。 


11.2 保护 应 用 安全 


开发 一 个 应 用 时 ， 在 设计 方面 会 遇 到 许多 选择 ， 例 如 为 用 户 接口 使 用 什么 框架 ， 或 者 为 后 
端 存 储 使 用 什么 系统 等 。 应 用 设计 中 最 关键 的 要 素 是 ， 如 何 保护 一 个 应 用 的 安全 性 。 这 个 
问题 通常 由 于 与 应 用 交互 的 大 量 接口 而 变 得 更 加 复杂 。 

涉及 数据 的 授权 应 当 在 哪里 进行 时 ， 通 常 有 两 种 流派 。 一 种 观点 认为 ， 安 全 问题 (特别 是 
授权 ) 应 属于 应 用 层 。 这 是 有 道理 的 ， 因 为 应 用 程序 通常 与 数据 的 控制 策略 有 更 多 上 下 文 
关联 。 但 此 观点 的 缺点 在 于 ， 这 意味 着 每 一 个 应 用 程序 都 必须 重新 实现 通用 的 服务 。 随 着 
时 间 的 推移 ， 数 据 库 获得 了 发 展 ， 因 此 ， 应 用 程序 将 授权 标签 下 放 至 数据 库 时 ， 数 据 库 
以 存储 和 强制 执行 授权 控制 。 这 是 给 Accumulo 添加 单元 级 的 可 见 性 标签 ， 和 给 HBase if 
加 单元 级 的 访问 控制 表 (ACL) 和 可 见 性 标签 的 主要 动机 之 一 。 


与 “授权 决策 在 哪里 进行 ”紧密 相关 的 是 ， 用 户 账户 能 深入 到 哪个 地 步 ? 历 史上， 数据 
库 一 直 保 持 着 它们 的 私有 身份 目录 ， 这 通常 使 尝试 和 复制 数据 库 目录 中 的 用 户 变 得 复杂 。 
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Accumulo 仍然 使 用 自己 的 身份 目 孙 ， 因 此 它 也 具有 这 一 缺陷 。 为 了 应 对 这 个 问题 ， 许 多 
应 用 程序 的 开发 者 采用 了 这 样 一 种 模式 : 使 用 数据 库存 储 应 用 级 账户 ， 并 由 应 用 程序 负责 
降级 访问 ， 以 此 利用 数据 库 级 的 授权 。 


降级 访问 的 功能 要 求 ， 用 户 使 用 Java API 访问 Accumulo 时 ， 需 要 通过 一 系列 的 授权 。 这 
使 得 应 用 程序 能 对 终端 用 户 执行 身份 验证 ， 并 使 用 集中 服务 查找 用 户 的 授权 。 随 后 ， 应 用 
程序 会 在 读 取 数据 时 传递 这 些 终 端 用 户 的 授权 ，Accumulo 会 自动 将 应 用 程序 的 授权 信息 
与 终端 用 户 的 授权 信息 交叉 比 对 。 这 意味 着 ， 给 终 站 省 用 户 提供 基于 他 们 个 体 级 别 的 更 细 粒 
度 的 访问 控制 时 ， 也 可 以 对 应 用 程序 可 访问 数据 的 最 高 级 别 进行 控制 。 


最 后 ， 终 端 用 户 的 授权 能 有 多 深入 取决 于 应 用 程序 开发 者 的 决策 。 随 着 时 间 的 推移 ， 应 用 
程序 和 基于 Hadoop 的 数据 存储 被 集成 到 同一 个 身份 目录 下 之 后 ， 应 用 程序 开发 者 想 要 做 
出 明智 的 设计 会 更 加 容易 。 安 全 领域 并 不 是 一 成 不 变 的 ， 而 是 在 持续 地 发 展 。 


11.3 HBase 


第 5 章 中 ， 我 们 了 解 过 如 何 配 置 HBase 以 使 用 Kerberos 作为 身份 验证 机 制 。HBase 客户 端 
可 以 通过 控制 台 、Java API 或 某 个 HBase 的 网 关 服 务 访问 HBase。 所 有 的 客户 端 访问 API 
都 支持 Kerberos 作为 身份 验证 机 制 ， 且 要 求 用 户 在 连接 前 先 取 得 Kerberos 的 TGT. 


这 种 客户 端的 访问 方式 依赖 于 具体 的 使 用 场景 。 对 于 数据 库 的 管理 访问 行为 ， 例 如 创建 、 
修改 或 删除 表 ， 通 常 使 用 HBase 控制 台 完 成 ;使 用 MapReduce 或 其 他 数据 处 理 框架 
通常 使 用 Java API; 其 他 类 型 的 HBase 应 用 也 可 以 直接 使 用 Java API， 或 通过 网 关 服 务 

问 HBase, {ASE Java 语言 访问 HBase 时 ， 选 择 网 关 API 的 情况 非常 普遍 。 ee 
为 管理 员 提供 了 一 个 遏止 点 ， 以 限制 对 HBase 的 直接 访问 。 接 下 来 ， 讨 论 如 何 安全 配置 
HBase 网 关 之 前 ， 先 看 看 怎样 通过 空 制 台 与 HBase 进行 安全 交互 。 
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11.3.4 HBase shell 


使 用 控制 台 时 ， 用 户 通常 在 执行 kinit 命令 之 前 就 获得 了 TGT。 如 果 试 图 在 没有 运行 kinit 
之 前 就 运行 控制 台 ， 将 会 如 示例 11-4 所 示 。 需 要 注意 的 是 ， 栈 跟踪 信息 末尾 的 错误 信息 


Failed to find any Kerberos tgt, 























示例 11-4 没有 Kerberos TGT 时 使 用 HBase 控制 台 


[alice@hadoop01 ~]$ hbase shell 

14/11/13 14:45:53 INFO Configuration.deprecation: hadoop.native.lib is deprecated. 
Instead, use io.native.lib.available HBase Shell; enter 'help<RETURN>' for list of 
supported commands. 

Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.6, rUnknown, Sat Oct 11 15:15:15 PDT 2014 


hbase(main):001:0» list 

TABLE 

14/11/13 14:46:00 WARN ipc.RpcClient: Exception encountered while connecting 
to the server : javax.security.sasl.SaslException: GSS initiate failed [Cau 
sed by GSSException: No valid credentials provided (Mechanism level: Failed 
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to find 

any Kerberos tgt)] 

14/11/13 14:46:00 FATAL ipc.RpcClient: SASL authentication failed. The most likely 
cause is missing or invalid credentials. Consider 'kinit'. 
javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSExcepti 

on: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)] 


ERROR: No valid credentials provided (Mechanism level: Failed to find any 
Kerberos tgt) 


Here is some help for this command: 
List all tables in hbase. Optional regular expression parameter could 
be used to filter the output. Examples: 


hbase» list 

hbase» list 'abc.*' 
hbase» list 'ns:abc.*' 
hbase» list 'ns:.*' 


hbase(main) :002:0> 
现在 在 示例 11-5 中 再 试 一 遍 ， 但 这 次 会 在 执行 控制 台 前 先 使 用 kinit 获取 TGT, 


示例 11-5 ”执行 kinit 后 使 用 HBase 控制 台 


[alice@hadoop01 ~]$ kinit 

Password for alice@EXAMPLE.COM: 

[alice@hadoop01 ~]$ hbase shell 

14/11/13 14:53:56 INFO Configuration.deprecation: hadoop.native. lib 
is deprecated. Instead, use io.native.lib.available 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.6, rUnknown, Sat Oct 11 15:15:15 PDT 2014 





hbase(main):001:0» list 
TABLE 

analytics demo 

document demo 

2 row(s) in 3.1900 seconds 


=> ["analytics demo", "document demo"] 

hbase(main):002:0» whoami 

alice@EXAMPLE.COM (auth:KERBEROS) 
groups: alice, hadoop-users 


hbase(main) :003:0> 


HBase 控制 台 没 有 独立 的 授权 配置 ， 所 有 访问 都 必须 通过 HBase 的 授权 配置 进行 授权 ， 详 
JL 6.6 节 。 
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11.3.2 HBase REST 网 关 


HBase 具有 两 种 网 关 服 务实 现 方式 : REST 服务 和 Thrift 服务 。 这 两 种 实现 方法 都 允许 使 
用 非 Java 语言 访问 HBase， 并 且 都 支持 身份 验证 、 身 份 模拟 和 通过 加 密实 现 的 机 密 性 。 刘 
署 哪 种 网 关 应 当 依赖 于 应 用 程序 开发 者 的 具体 需求 : 通过 基于 JavaScript 的 Web 应 用 程序 
直接 访问 网 关 时 ， 通 常 使 用 REST 接口 ;通过 其 他 语言 的 访问 则 通常 使 用 Thrift API。 现 在 
看 看 怎样 配置 REST 网 关 的 身份 验证 功能 。 


第 一 步 是 为 REST 网 关 创 建 一 个 Kerberos 规则 ， 以 和 HBase 的 其 余部 分 对 话 。 这 是 一 个 
服务 主体 ， 应 该 包括 运行 REST 网 关 的 服务 器 主机 名 一 一 例如 rest/rest.example.com@ 
EXAMPLE.COM， 其 中 rest.example.com 由 运行 有 REST 网 关 的 服务 器 的 完全 限定 域名 代替 。 
创建 服务 主体 并 导出 含有 主体 密 钥 的 文件 后 ， 需 要 配置 REST 服务 ， 使 其 通过 Kerberos 与 
HBase 集群 交互 。 先 看 下 面 的 hbase-site.xml 文件 : 


<property> 
<name>hbase.rest.keytab. file</name> 
«value»/etc/hbase/conf /hbase-rest.keytab«/value» 
</property> 
<property> 
<name>hbase.rest.kerberos.principal</name> 
«value»rest/ HOSTQEXAMPLE .COM</value> 
</property> 


如 果 局 用 HBase 授权 机 制 ， 则 还 需要 为 REST 服务 使 用 的 主体 创建 一 个 顶层 ACL。 假 设想 
授予 通过 REST 网 关 访问 的 一 切 权 限 (包括 管理 访问 权限 )， 那 么 应 当 使 用 HBase 控制 台 
执行 下 列 内 容 (GER, 6.6 节 ) : 


hbase(main):001:0> list grant 'rest', 'RWCA' 


如 果 使 用 了 不 同 的 主体 名 ， 那 么 应 当 用 主体 的 短 名 称 代替 rest。 下 一 步 是 通过 SPNEGO/ 
Kerberos 启用 REST 客户 端的 验证 机 制 。 对 于 每 一 个 SPNEGO 的 协议 规范 ， 需 要 创建 一 个 符 
合 HTTP/rest.example.comQEXAMPLE.COM 格式 的 主体 ， 其 中 rest.example.com 用 运行 有 REST 
网 关 的 服务 器 的 完全 限定 域名 代替 。 对 hbase-site.xml 进行 如 下 设置 ， 以 启用 验证 机 制 : 


<property> 
<name>hbase.rest.authentication.type</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>hbase.rest.authentication.kerberos.principal</name> 
<value>HTTP/_HOST@EXAMPLE.COM</value> 

</property> 

<property> 
<name>hbase.rest.authentication.kerberos.keytab</name> 
«value»/etc/hbase/conf /hbase-rest.keytab«/value» 

</property> 


本 例 中 ， 将 REST 的 验证 密 钥 表 与 HBase 的 验证 密 钥 表 设 置 为 同一 位 置 。 这 意味 着 或 者 需 
要 将 两 种 keytab 同时 导出 ， 或 者 使 用 ktutil 将 两 种 主体 的 keytab 合并 为 一 个 keytab 文件 。 
另外 ， 还 可 以 为 REST 客户 端 验 证 和 HBase 验证 机 制 使 用 不 同 的 keytab 文件 。 
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REST 服务 通常 使 用 hbase.rest.kerberos.principal [A] HBase 进行 身份 验证 ， 但 它 是 代 
表 同 REST 服务 进行 身份 验证 的 用 户 执行 操作 的 。 为 了 做 到 这 些 ，REST 服务 必须 拥有 模 
拟 其 他 用 户 的 权限 。 我 们 可 以 使 用 与 5.2.4 节 相 同 的 hadoop.proxyuser .<proxy>. groups 和 
hadoop.proxyuser .<proxy>.hosts 的 设置 。 这 些 设置 能 控制 哪些 用 户 可 由 代理 模拟 ， 以 及 
它们 可 以 从 哪些 主机 进行 身份 模拟 。 这 些 设 置 的 值 是 由 逗号 分 隔 的 组 和 主机 列表 ，* 号 代 
表 所 有 组 /主机 。 例 如， 如 果 和 希望 rest 用 户 能 模拟 来 自 hbase-user 组 中 任意 主机 的 任意 用 
户 ， 需 要 将 下 列 内 容 添 加 到 HBase Master 中 的 hbase-site.xml 文件 : 


<property> 
<name>hadoop.security.authorization</name> 
<value>true</value> 

</property> 

<property> 
<name>hadoop.proxyuser .rest.groups</name> 
<value>hbase-users</value> 

</property> 

<property> 
<name>hadoop.proxyuser .rest.hosts</name> 
<value>*</value> 

</property> 


REST 服务 还 支持 远程 REST 客户 端 模拟 终端 用 户 ， 这 称 为 双 层 用 户 模拟 ， 因 为 被 REST 
客户 端 模拟 的 用 户 是 由 REST 服务 模拟 的 。 这 人 允许 运行 一 个 通过 REST 服务 访问 HBase 
的 应 用 程序 ， 该 应 用 程序 可 以 通过 所 有 途径 传递 用 户 任 证。 要 想 启 用 这 种 身份 模拟 ， 可 
将 hbase.rest.support.proxyuser 的 值 设 为 true。 可 以 对 hadoop.proxyuser.«app user». 
groups 进行 配置 ， 控 制 访 问 REST 服务 的 应 用 程序 能 模拟 哪些 终端 用 户 。 比 如 有 个 
whizbang 应 用 程序 ， 可 以 模拟 whizbang-users 组 内 的 任意 用 户 ， 那 么 应 该 对 REST 服务 中 
的 hbase-site.xml 文件 进行 如 下 设置 : 






































<property> 
<name>hbase.rest.support.proxyuser</name> 
<value>true</value> 

</property> 

<property> 
<name>hadoop. security. authorization</name> 
<value>true</value> 

</property> 

<property> 
<name>hadoop. proxyuser .whizbang.groups</name> 
<value>whizbang-users</value> 

</property> 

<property> 
<name>hadoop. proxyuser .whizbang.hosts</name> 
<value>*</value> 

</property> 





图 11-1 展示 了 双 层 模拟 是 如 何 通过 HBase REST 服务 工作 的 。 终 端 用 户 Alice 通过 LDAP 
用 户 名 和 口令 进行 身份 验证 ， 对 Hue 证 明了 她 的 身份 (1)。 然 后 Hue 通过 Kerberos 使 用 
hue/hue.example.comQEXAMPLE.COM 主体 进行 身份 验证 ， 并 传递 了 alice 的 doas 用 户 身 份 
(2)。 最 后 ，HBase REST 服务 通过 Kerberos 使 用 rest/rest.example.com@EXAMPLE.COM 主体 
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进行 身份 验证 ， 并 传递 了 alice 的 doAs 用 户 身份 3)。 该 流程 在 从 用 户 到 HBase 的 整 条 路 
径 中 有 效 传 递 了 Alice 的 身份 凭据 。 
















(1) auth: Idap(alice) (3) auth: kerb(rest) 


doAs: alice 


auth: kerb(hue) 
doAs: alice 














11-1: 双 层 用 户 模 拟 


REST 服务 可 通过 启用 TLS/SSL 支持 客户 端 和 REST server 间 的 加 密 连 接 。 要 想 启用 SSL, 
可 以 将 hbase.rest.ssl.enabled 的 值 设 为 true， 并 将 REST 服务 配置 为 通过 私 钥 和 证 书 使 
用 Java keystore 文件 。 如 果 keystore 文件 在 /etc/hbase/conf/rest.exampLe.com.jks， 并 且 
密 钥 和 keystore 使 用 secret 作为 口令 ， 那 么 应 按照 如 下 内 容 对 REST 服务 的 hbasesite. 
xnl 文件 进行 配置 : 














<property> 
<name>hbase.rest.ssl.enabled</name> 
<value>true</value> 

</property> 

<property> 
<name>hbase.rest.ssl.keystore.store</name> 
<value>/etc/hbase/conf/rest.exampLle.com. jks</value> 

</property> 

<property> 
<name>hbase.rest.ssl.keystore. password</name> 
<value>secret</value> 

</property> 

<property> 
<name>hbase.rest.ssl.keystore.keypassword</name> 
<value>secret</value> 

</property> 


如 果 REST 服务 的 证 书 疫 有 被 革 个 已 被 信任 的 证 书签 名 ， ISAS G47 LE keytool 
将 该 证 书 导入 Java 的 central truststore: 








[hbase@rest ~]$ keytool -import -trustcacerts -file rest.example.com.crt \ 
-keystore $JAVA HOME/ jre/lib/security/cacerts 


_E keytool 命令 能 将 证 书 导 入 Java 的 central truststore。 这 意味 着 导入 的 任 
何 证 书 都 会 被 任意 Java 应 用 程序 所 信任 不 仅仅 是 HBase， 而 是 使 用 了 该 
JRE 的 所 有 应 用 。 























11.3.3 HBase Thrift 网 关 


与 REST 网 关 类 似 ，HBase Thrift 网 关 支 持 用 户 通过 Kerberos 进行 身份 验证 。 第 一 步 是 为 
Thrift 网 关 创 建 一 个 Kerberos 主体 ， 与 HBase 其 余部 分 交互 。 这 是 一 个 服务 主体 ， 并 且 
应 该 包含 运行 Thrift 网 关 的 服务 器 主机 名 (如 thrift/thrift.example.com@EXAMPLE.COM) 。 
创建 服务 主体 并 导出 含有 主体 密 钥 的 keytab 文件 后 ， 需 要 配置 Thrift 服务 ， 使 其 通过 
Kerberos 与 HBase 集群 交互 。 看 看 下 面 的 hbase-site.xml 文件 : 


<property> 
<name>hbase. thrift. keytab. file</name> 
<value>/etc/hbase/conf/hbase.keytab</value> 

</property> 

<property> 
<name>hbase. thrift. kerberos.principal</name> 
<value>thrift/_HOST@EXAMPLE .COM</value> 

</property> 


如 果 启 用 HBase 的 授权 机 制 ， 则 还 需要 为 Thrift 服务 使 用 的 主体 创建 一 个 顶层 ACL (访问 
控制 表 )。 假 设想 授予 通过 Thrift 网 关 的 一 切 访问 权限 (包括 管理 访问 权限 )， 那 么 应 当 使 
用 HBase shell 执行 下 列 内 容 : 


hbase(main):001:0> list grant 'thrift', 'RWCA' 


此 时 ，Thrift 网 关 能 够 访问 HBase 集群 ， 但 不 能 进行 用 户 身 份 验证 。 还 需要 将 hbase. 
thrift.security.qop 的 值 设 为 以 下 3 个 值 之 一 ， 以 启用 身份 验证 。 


auth 
启用 身份 验证 。 
auth-int 
启用 身份 验证 和 完整 性 检查 。 


auth-conf 


启用 身份 验证 、 机 密 性 机 制 ( 即 加 密 ) 和 完整 性 检查 。 


与 REST 网 关 类 似 ， 需 要 启用 Thrift 用 户 以 模拟 那些 同 Thrift 网 关 进 行 身份 验证 的 用 户 。 
同样 地 ， 将 会 用 到 HBase Master 中 hbase-site.xml 文件 的 hadoop.proxyuser 配置 : 


<property> 
<name>hadoop. security. authorization</name> 
<value>true</value> 

</property> 

<property> 
<name>hadoop. proxyuser.thrift.groups</name> 
<value>hbase-users</value> 

</property> 

<property> 
<name>hadoop. proxyuser.thrift.hosts</name> 
<value>*</value> 

</property> 


与 REST 网 关 不 同 的 是 ，Thrift 网 关 不 支持 应 用 程序 用 户 模拟 终端 用 户 。 这 意味 着 ， 如 果 
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一 个 应 用 程序 通过 Thrift 网 关 访 问 HBase， 那 么 其 所 有 访问 行为 都 会 被 作为 app 用 户 得 
到 处 理 。 即 将 到 来 的 HBase 1.0 添加 了 一 项 功能 : Thrift 网 关 的 传输 方式 被 配置 为 HTTPS 
时 的 身份 模拟 。 这 方面 的 工作 可 以 在 HBASE-12640 (http://issues.apache.org/jira/browse/ 
HBASE-12640) 中 找到 。 


图 11-2 展示 了 Thrift 网 关 是 如 何 进 行 身份 模拟 的 。 假 设 有 一 个 通过 Thrift 网 关 访问 HBase 
的 Web 应 用 。 用 户 Alice 通过 Web 应 用 使 用 PKI ( 公 钥 基础 设施 ) 进行 身份 验证 (1)， 然 
后 应 用 程序 使 用 Kerberos 与 Thrift 网 关 进 行 身份 验证 (2)。 由 于 仅 支 持 单 层 身份 模拟 ， 
Thrift 网 关 使 用 thrift/thrift.example.com@EXAMPLE.COM 主体 和 app 的 doAs 与 HBase 进行 
身份 验证 (3)。HBase 不 会 知道 原始 的 终端 用 户 是 Alice， 并 且 向 Alice 展示 结果 之 前 ， 由 
这 个 Web 应 用 负责 申请 其 他 授权 控制 。 请 回顾 图 11-1， 并 比 对 单 层 和 双 层 的 用 户 模拟 。 













































(1) auth: pki(alice) (3) auth: kerb(thrift) 


doAs: app 


auth: kerb(app) 











11-2: Thrift 网 关 的 应 用 层 身份 模拟 


11.4 Accumulo 


Accumulo 客户 端的 访问 可 以 通过 两 种 机 制 完成 : 控制 台 和 代理 服务 。Accumulo 控制 台 与 
HBase 控制 台 类 似 ， 然 而 Accumulo 的 代理 服务 却 和 HBase 的 thrift 网 关 服 务 类 似 。 




















11.4.1 Accumulo shell 


与 HBase 不 同 的 是 ，Accumulo 使 用 用 户 名 和 口令 进行 身份 验证 。 支 持 客户 端 Kerberos Us 
证 的 机 制 会 在 Accumulo 1.7.0 版 中 到 来 ， 可 以 在 ACCUMULO-1815 (http://issues.apache. 
org/jira/browse/ACCUMULO-2815) 中 对 其 进行 跟踪 。 这 意味 着 ， 客 户 端 连接 Accumulo 
时 ， 必 须 同 时 提供 用 户 名 和 口令 。 使 用 Accumulo 控制 台 时 ， 可 以 使 用 -u xk --user 命 
令 行 参 数 传递 用 户 名 ， 或 者 可 以 默认 使 用 正在 运行 shell 的 Linux 用 户 名 。 如 果 不 传递 任 
何 参数 ，Accumulo 会 主动 要 求 在 标准 输入 中 输入 口令 。 另 外 ， 还 可 以 使 用 命令 行 、 文 件 
或 者 环境 变量 提供 口令 ， 这 些 方法 可 分 别 通过 参数 -p BY --password 的 pass:«lit eral 
password>, file:<path to file with password> 或 者 env:<environment variable with 
password» 选项 得 到 启用 。 还 可 以 在 运行 Accumulo 控制 台 之 后 ， 使 用 user 命令 改变 当前 
用 户 ， 新 用 户 将 会 被 要 求 输入 口令 。 在 Accumulo 控制 台中 传递 口令 的 多 种 方法 见 示例 
11-6。 注 意 ， 提 供 错误 口令 时 ， 控 制 台 会 打印 Username or Password is Invalid 消息 。 
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示例 11-6 ”通过 Accumulo 控制 台 进 行 身 份 验证 


[alice@hadoop01 ~]$ accumulo shell 

Password: *** 

2014-11-13 15:19:54,225 [shell.Shell] ERROR: org.apache.accumulo.core.client 
.AccumuloSecurityException: Error BAD CREDENTIALS for user alice - Username 
or Password is Invalid 

[alice@hadoop01 ~]$ accumulo shell 

Password: ****** 


Shell - Apache Accumulo Interactive Shell 

- version: 1.6.0 

- instance name: accumulo 

- instance id: 382edcfb-5078-48b4-8570-f61d92915015 


- type 'help' for a list of available commands 


alice@accumulo> quit 
[aliceQhadoop01 ~]$ accumulo shell -p pass:secret 


Shell - Apache Accumulo Interactive Shell 

- version: 1.6.0 

- instance name: accumulo 

- instance id: 382edcfb-5078-48b4-8570-f61d92915015 


- type 'help' for a list of available commands 


alice@accumulo> quit 
[aliceQhadoop01 ~]$ accumulo shell -p file:accumulo pass.txt 


Shell - Apache Accumulo Interactive Shell 

- version: 1.6.0 

- instance name: accumulo 

- instance id: 382edcfb-5078-48b4-8570-f61d92915015 


- type 'help' for a list of available commands 


alice@accumulo> quit 
[alice@hadoop01 ~]$ accumulo shell -p env:ACCUMULO PASS 


Shell - Apache Accumulo Interactive Shell 

- version: 1.6.0 

- instance name: accumulo 

- instance id: 382edcfb-5078-48b4-8570-f61d92915015 
- type 'help' for a list of available commands 
aliceQaccumulo» user bob 


Enter password for user bob: *** 
bob@accumuLlo> 
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Accumulo 控制 台 没 有 属于 自己 的 授权 配置 机 制 ， 所 有 访问 会 由 Accumulo 的 授权 配置 机 制 
进行 授权 ， 详 见 6.6 5, 


11.4.2 Accumulo 代 理 服务 


Accumulo 有 一 个 代理 服务 与 HBase 的 Thrift 网 关 很 相似 ， 该 代理 服务 可 以 被 部 署 在 任意 
能 使 用 Java 客户 端 API 的 服务 器 上 。 有 具体 来 说 ， 这 意味 着 该 服务 器 必须 能 够 与 Accumulo 
Master, ZooKeeper quorum, NameNode 和 DataNode 进行 通信 。 对 Accumulo 代理 服务 的 
配置 在 SACCUMULO_HOME/proxy/proxy.properties 文件 中 进行 ， 参 数 protocoLFactory 决定 
了 服务 器 和 客户 端 使 用 的 下 层 Thrift 协议 。 如 果 要 改变 该 参数 的 设置 ， 必 须 与 客户 端正 在 
使 用 的 协议 实现 相符 合 。 如 果 需 要 支持 多 种 Thrift 协议 ， 则 应 当 部 署 多 个 代理 服务 。 


其 他 必须 在 客户 端 和 代理 服务 之 间 同 步 的 设置 是 tokenCtass。 代 理 服务 不 会 直接 对 客户 端 
进行 身份 验证 ， 而 会 将 用 户 提供 的 身份 验证 令 牌 传 给 Accumulo。 若 需要 同时 支持 多 种 身 
份 验证 令 牌 ， 也 需要 部 署 多 个 代理 服务 。 


proxy.properties 文件 的 示例 如 下 : 




























































































protocoLFactory=org.apache.thrift.protocoL.TCompactProtocoLSFactory 
tokenClass=org.apache.accumulo.core.client.security. tokens .PasswordToken 
port=42424 

instance=accumulo-instance 
zookeeperszzoo-1.example.com,zoo-2.example.com,zoo-3.example.com 


由 于 Accumulo 会 把 身份 验证 令 牌 从 访问 代理 服务 的 应 用 传递 给 Accumulo， 这 相当 于 一 个 
单 层 身份 模拟 ， 如 图 11-2 所 示 。Accumulo 支持 应 用 程序 用 户 的 降级 访问 ， 所 以 Web 应 用 
可 以 查阅 Alice 的 授权 ， 并 且 让 Accumulo 的 授权 过 滤器 限制 Alice 对 数据 的 授权 访问 。 


11.5 Oozie 


从 客户 端 访问 的 角度 看 ，Oozie 是 个 非常 重要 的 工具 。 除 了 作为 集群 工作 流 的 执行 者 和 规 
划 者 之 外 ，Oozie 还 可 以 作为 给 客户 端的 网 关 服 务 提交 任意 类 型 的 作业 。 这 允许 在 屏蔽 从 
客户 端 对 YARN 或 MRI 的 直接 访问 的 同时 ， 仍 能 允许 远程 的 作业 提交 。 如 果 选 择 使 用 该 
类 架构 ， 那 么 为 Oozie 服务 启用 身份 验证 和 授权 机 制 会 非常 重要 。5.2.5 市 第 4 小 市 描述 过 
如 何 配置 Kerberos 身份 验证 机 制 ，6.5 市 详 述 过 其 授权 机 制 。 


一 旦 在 服务 器 端 启用 了 那些 特性 参数 ， 那 么 在 客户 端 几乎 不 需要 额外 配置 也 能 使 用 。 要 通 
过 Oozie 的 身份 验证 ， 仅 需要 在 自己 的 工作 站 上 缓存 Kerberos 的 TGT。 这 很 容易 实现 ， 只 
要 在 命令 行 执行 Oozie 命令 之 前 就 执行 kinit 即 可 。 若 执行 了 一 个 Oozie 命令 ， 并 且 看 见 了 
Failed to find any Kerberos tgt 的 错误 消息 ， 这 说 明 很 可 能 没有 运行 kinit: 



























































[alice@edge01 ~]$ oozie jobs -oozie http://oozie01.example.com:11000/oozie 
Error: AUTHENTICATION : Could not authenticate, GSSException: No valid crede 
ntials provided (Mechanism level: Failed to find any Kerberos tgt) 
[alice@edge01 ~]$ klist 

klist: No credentials cache found (ticket cache FILE:/tmp/krb5cc_1236000001) 
[alice@edge01 ~]$ kinit 
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Password for alice@EXAMPLE.COM: 
[alice@edge01 -]$ oozie jobs -oozie http://oozie01.example.com:11000/oozie 
No Jobs match your criteria! 


我 们 已 经 配置 了 Oozie 的 身份 验证 和 授权 机 制 ， 但 还 没有 做 任何 操作 以 保证 Oozie 客户 端 
和 服务 器 之 间 通 信 的 机 密 性 。 幸 运 的 是 ，Oozie 支持 使 用 HTTPS 加 密 连接 ， 并 且 提 供 完整 
性 检查 。 要 启用 HTTPS, “SRE UE DAL (CA) 分 发 给 Oozie 服务 的 证 书 。 关 
于 如 何 创建 一 个 自 签名 证 书 的 示例 ， 详 见 10.2.1 77. 


一 旦 证 书 颁发 机 构 分 发 了 证 书 ， 且 拥有 证 书 和 PKCS12 格式 的 私 钥 ， 那 么 可 以 向 Java 
keystore 文件 导入 证 书 的 私 钥 。 下 列 示 例 中 ， 给 keystore 和 证 书 的 私 钥 使 用 同样 的 通行 码 


secret: 

















[rootQoozie01 ~]# mkdir /etc/oozie/ssl 

[rootQoozie01 ~]# keytool -v -importkeystore V 
-srckeystore /etc/pki/tls/private/oozie01.example.com.p12 V 
-srcstoretype PKCS12 V 
-destkeystore /etc/oozie/ssl/oozie01.example.com.keystore -deststoretype JKS V 
-deststorepass secret -srcalias oozie01.example.com -destkeypass secret 

Enter source keystore password: 

[Storing /etc/oozie/ssl/oozie01.example.com.keystore] 

[rootQoozie01 ~]# chown -R oozie:oozie /etc/oozie/ssl 

[rootQoozie01 ~]# chmod 400 /etc/oozie/ssl/* 

[rootQoozie01 ~]# chmod 700 /etc/oozie/ssl 


接 下 来 ， 在 oozie-env.sh 文件 中 设置 控制 keystore 位 置 和 口令 的 环境 变量 : 


export OOZIE HTTPS KEYSTORE FILE-/etc/oozie/ssl/oozie01.example.com.keystore 
export OOZIE HTTPS KEYSTORE PASS-secret 





此 处 的 keystore 口令 会 对 任何 能 够 在 运行 Oozie 的 服务 器 上 执行 进程 的 人 可 
见 。 必 须 对 keystore 文件 采用 强 的 权限 保护 措施 ， 以 防止 用 户 读 取 或 修改 
keystore 文件 。 


配置 Oozie 使 用 HTTPS 之 前 ， 需 要 确保 Oozie 服务 没有 运行 。 要 配置 Oozie 使 用 HTTPS, 
可 以 运行 以 下 命令 : 

[oozieQoozie01 ~]$ oozie-setup.sh prepare-war -secure 
现在 ， 如 果 启 用 该 服务 ， 将 会 在 端口 11443. 上 使 用 HTTPS 协议 。 可 以 通过 设置 oozie-env.sh 
文件 中 的 环境 变量 00ZIE_HTTPS_PORT 改变 端口 。 
在 访问 Oozie 的 客户 端 机 器 上 ， 可 以 简单 地 通过 命令 行将 Oozie URL 改 为 https://oozie01. 


example.com:11443/oozie， 如 : 








[alice@edge01 -]$ oozie jobs -oozie https://oozie01.example.com:11443/oozie 
No Jobs match your criteria! 


如 果 没 有 获得 期 望 的 输出 ， 而 得 到 了 如 下 SSLHandshakeException 错误 消息 : 


[alice@edge01 ~]$ oozie jobs -oozie https://oozie01.example.com:11443/oozie 
Error: IO ERROR : javax.net.ssl.SSLHandshakeException: sun.security.validator. 
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这 说 明 ，Oozie 服务 使 用 的 证 书 没有 被 信任 的 证 书 颁发 机 构 签名 。 这 可 能 发 生 在 使 用 


ValidatorException: PKIX path building failed: sun.security.provider.certpath. 


SunCertPathBuilderException: unable to find valid certification path torequested 


target 














自 签 





名 证 书 或 某 个 内 部 CA 没有 被 根 CA 签名 的 情况 下 。 假 设 example-ca.crt 文件 中 有 一 个 
EXAMPLE. COM 域 的 证 书 颁发 机 构 ， 由 于 要 将 该 证 书 导入 Java 的 central truststore， 所 以 该 证 

会 被 所 有 运行 于 该 服务 器 上 的 Java 应 用 所 信任 ， 而 不 仅仅 是 Oozie。 可 以 通过 以 下 命令 
将 其 导入 Java 的 central truststore: 





Java cacerts 文件 的 默认 口令 是 changeit。 如 果 Oozie 被 配置 为 高 可 用 








[rootQedge01 ~]# keytool -import -alias EXAMPLE.COM -file example-ca.crt V 


-keystore ${JAVA_HOME}/jre/lib/security/cacerts 
Enter keystore password: 
Owner: CN=Certificate Authority, O=EXAMPLE.COM 
Issuer: CN=Certificate Authority, O=EXAMPLE.COM 
Serial number: 1 


Trust this certificate? [no]: yes 
Certificate was added to keystore 











PE (HA)， 那 么 需要 


将 负载 均衡 器 配置 进行 TLS (传输 层 安全 ) 直 连 。 这 会 允许 客户 端 看 见 Oozie 服务 器 的 证 
书 ， 且 不 需要 负载 均衡 器 有 自己 的 证 书 。 进 行 TLS 直 连 操作 时 ， 应 当 使 用 通 配 证 书 或 者 包 
含 负 载 均衡 器 全 限定 域名 作为 有 效 名 称 的 证 书 。 


11.6 Sqoop 


第 10 章 中 ， 我 们 讨论 了 如 何 保 护 机 密 性 、 完 整 性 和 数据 导入 管道 的 可 用 性 ， 这 些 原则 也 





同样 适用 于 保护 数据 提取 管道 。Sqoop 中 ， 机 密 性 不 是 
Sqoop 使 用 的 、 与 RDBMS 服务 交互 的 引 
动 ， 以 使 用 SSL 对 MySQL 服务 器 和 Sqoop 执行 的 任务 之 间 的 通信 进行 加 密 。 
同 的 参数 配置 加 密 那些 正在 导出 的 数据 ， 如 示例 11-7 所 示 。 














示例 11-7 FA SSL 导出 MySQL 表 


[alice@sqoop01 ~]$ hdfs dfs -cat cities/* 
1,USA,Palo Alto 
2,Czech Republic,Brno 
3,USA, Sunnyvale 
[alice@sqoop01 ~]$ URI="jdbc:mysql://mysql01.example.com/sqoop" 
[alice@sqoop01 ~]$ URI="${URI}?verifyServerCertificate=false" 
[alice@sqoop01 ~]$ URI="${URI}&useSSL=true" 
[alice@sqoop01 ~]$ URI="${URI}&requireSSL=true" 
[alice@sqoop01 -]$ sqoop export --connect ${URI} V 
--username sqoop -P --table cities \ 
--export-dir cities 
Enter password: 


14/06/28 17:27:22 INFO mapreduce.ExportJobBase: Exported 3 records. 


[alice@sqoop01 ~]$ 


由 Sqoop 本 身 提 供 的 ， 但 可 以 由 
区 动 提供 。10.2.2 节 展 示 了 应 该 怎样 配置 MySQL Jk 
可 以 使 用 相 





11.7 SQL 访问 


正如 第 1 章 所 述 ,使 用 SQL 访问 Hadoop 数据 有 两 种 流行 的 方法 : Hive 和 Impala。 这 二 
者 都 支持 Kerberos 和 基于 LDAP 的 用 户 名 /口令 身份 验证 。 用 户 通常 不 直接 与 Hive 或 
Impala 进行 交互 ， 而 依赖 SQL shell 或 JDBC 驱动 。 


本 章 的 剩余 内 容 包括 配置 Impala 和 Hive 支持 的 身份 验证 协议 ， 以 及 作为 客户 端 如 何 传递 
验证 信息 。Impala 和 Hive 的 授权 机 制 由 Sentry 提供 ， 该 部 分 已 经 在 第 7 章 讲 过 。 




















11.7.1 Impala 


Impala 能 被 配置 为 仅 使 用 Kerberos、 仅 使 用 LDAP 或 同时 使 用 LDAP 和 Kerberos 进行 身份 
验证 。Impala 运行 于 启用 Kerberos 的 Hadoop 集群 中 时 ， 必 须 被 配置 为 使 用 Kerberos, ix 
样 Impala 才能 与 HDFS 和 YARN 安全 地 进行 通信 。 


1. 使 用 带 有 Kerberos 验 证 机 制 的 Impala 

与 Hadoop 的 通信 启用 了 Kerberos 时 ， 基 于 Kerberos 的 客户 端 身份 验证 机 制 会 自动 启用 。 
Impala 使 用 命令 行 工具 进行 配置 ， 应 当 对 impalad, statestored 和 catalogd 守护 进程 的 
--principal 和 --keytab_file 参数 进行 配置 。--principal 应 被 配置 为 Inpala 进行 身份 验 
证 的 Kerberos 主体 ， 通 常 格式 是 impala/<fully qualified domain name>@<realm>， 其 中 
«fully qualified domain name> 是 运行 着 impalad 的 主机 名 ，<realm> 是 Kerberos 域 。 主 
体 的 第 一 个 组 件 impala 必须 与 启动 Impala 进程 的 用 户 名 相 匹 配 。--keytab_file 参数 必 
须 指向 一 个 包含 前 述 主体 和 运行 有 impalad 服务 器 的 HTTP 主体 的 keytab 文件 。 可 以 借助 
ktutil 命令 ， 用 来 自 两 个 独立 keytab 的 文件 创建 一 个 keytab 文件 ， 如 示例 11-8 所 示 。 


示例 11-8 ”融合 Impala 和 HTTP 的 keytab 


[impala@impala01 ~]$ ktutil 
ktutil: rkt impala.keytab 
ktutil: rkt http.keytab 
ktutil: wkt impala-http.keytab 
ktutil: quit 


为 了 使 配置 更 容易 ， 可 以 对 impalad 进程 使 用 的 命令 行 参 数 进行 设置 ， 设 置 /etc/default/ 
impala 文件 中 的 IMPALA SERVER ARGS, IMPALA_STATE_STORE_ARGS 和 IMPALA_CATALOG_ARGS 变 
量 即 可 。 















































示例 11-9 为 Impala 配置 Kerberos 身份 验证 


IMPALA_SERVER_ARGS="${IMPALA_SERVER_ARGS} V 
--principal-impala/impala01.example.comQEXAMPLE.COM V 
--keytab file-/etc/impala/conf/impala-http.keytab" 


IMPALA STATE STORE ARGS-"S(IMPALA STATE STORE ARGS] V 
--principal-impala/impala01.example.comQEXAMPLE.COM V 
--keytab file-/etc/impala/conf/impala-http.keytab" 


IMPALA CATALOG ARGS-"S(IMPALA CATALOG ARGS) V 
--principal-impala/impala01.example.comQEXAMPLE.COM V 
--keytab file-/etc/impala/conf/impala-http.keytab" 
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如 果 用 户 在 负载 均衡 之 后 访问 Imnpala， 那 么 配置 需要 一 些小 小 的 改动 。 创 建 融 合 的 keytab 
文件 时 ， 还 需要 加 入 代理 服务 主体 的 keytab， 并 且 添 加 --be_principal 参数 。--be_ 
principal 参数 是 Impala 与 诸如 HDFS 等 后 端 服务 进行 通信 的 主体 ， 其 值 应 与 之 前 设置 的 
--principal 参数 一 样 ， 且 --principal 参数 应 被 改 为 负载 均衡 的 主体 。 若 负载 均衡 器 在 
impala-proxy.example.com 上 ， 那 么 应 当 如 示例 11-10 所 示 设 置 IMPALA SERVER ARGS, 


示例 11-10 ”配置 负载 均衡 器 之 后 的 Impala 的 Kerberos 验证 机 制 


IMPALA_SERVER_ARGS="${IMPALA_SERVER_ARGS} V 
--principal=impala/impala-proxy.example.com@EXAMPLE.COM V 
--be principal-impala/impala01.example.comQEXAMPLE.COM Y 
--keytab file-/etc/impala/conf/impala-http.keytab" 




















Impala 支持 用 户 通 过 Llama 项 目 使 用 YARN， 以 进行 资源 管理 。Llama 能 协调 YARN 和 
Impala 这 种 低 时 延 执 行 引 擎 之 间 的 资源 管理 。Llama 有 两 个 组 件 : 一 个 长 期 运行 的 应 用 控 
制程 序 ， 一 个 节点 管理 插件 。 应 用 控制 程序 处 理 Impala 的 保留 资源 ， 节 点 管理 揪 件 与 本 地 
Impala 守护 程序 合作 调节 本 地 节点 的 可 用 资源 。 

Impala 启用 Kerberos 时 ， 必 须 对 Llama-site.xml 文件 中 的 下 列 参 数 进行 设置 ， 以 配置 
Llama 的 Kerberos, 






























































lama.am.server.thrift.security 


将 其 设 为 true， 以 便 为 应 用 控制 程序 启用 Thrift SASL/ 基于 Kerberos 的 安全 策略 。 


llama.am.server.thrift.security.QOP 
局 用 安全 策略 时 ， 用 其 设置 保护 级 别 。 有 效 参 数 为 : 仅 进行 身份 验证 设 为 auth， 进 行 
身份 验证 和 完整 性 检查 设 为 auth-int， 进 行 身份 验证 、 完 整 性 检查 和 机 密 性 保障 (加 
35) 则 设 为 auth-conf。 

















llama.am.server.thrift.kerberos.server.principal.name 
Llama 应 用 服务 器 的 完全 限定 主体 名 。 该 配置 必须 同时 包含 运行 有 Llama 应 用 控制 程序 
的 服务 器 的 短 名 称 和 完全 限定 主机 名 。 
llama.am.server.thrift.kerberos.notification.principal.name 
用 于 客户 端 通知 的 短 名 称 。 该 短 名 称 结合 了 注册 期 间 impalad 进程 提供 的 客户 端 主机 
名 。 可 以 通过 配置 IMPALA_SERVER_ARGS 变量 中 的 --hostname 参数 覆盖 该 主机 名 。 


示例 11-11 展示 了 llama-site.xml 文件 配置 启用 Kerberos 的 片段 。 
示例 11-11 配置 Llama 应 用 控制 程序 的 Kerberos 验证 机 制 


<property> 
«name»llama.am.server.thrift.security«/name» 
<value>true</value> 

</property> 

<property> 
<name>Llama.am.server.thrift.kerberos.keytab.file</name> 
«value»/etc/llama/conf/llama.keytab«/value» 

</property> 

<property> 
<name>Llama.am.server.thrift.kerberos.server.principal.name</name> 














«value»llama/llama.example.comQEXAMPLE.COM«/value- 

</property> 

<property> 
<name>Llama.am.server.thrift.kerberos.notification.principal.name</name> 
<value>impala</value> 

</property> 


— H Impala 被 配置 为 使 用 Kerberos 验证 机 制 ， 客 户 端 就 可 以 通过 缓存 的 Kerberos TGT 进 
行 身份 验证 〈 如 在 执行 控制 台 之 前 运行 kinit)。 示 例 11-12 展示 了 Alice 获取 其 Kerberos 
TGT 并 使 用 Impala 控制 台 进行 Kerberos 身份 验证 的 过 程 。 


示例 11-12 使 用 Impala 控制 台 进 行 Kerberos 身份 验证 


[alice@hadoop01 ~]$ kinit 

Password for alice@EXAMPLE.COM: 

[aliceQhadoop01 ~]$ impala-shell -i impala-proxy 

Starting Impala Shell without Kerberos authentication 

Error connecting: TTransportException, TSocket read 0 bytes 

Kerberos ticket found in the credentials cache, retrying the connection with a s 
ecure transport. 

Connected to impala-proxy:21000 

Server version: impalad version 2.0.0 RELEASE (build ecf30af0b4d6e56ea80297df218 
9367ada6b7da7) 

Welcome to the Impala shell. Press TAB twice to see a list of available commands. 








Copyright (c) 2012 Cloudera, Inc. All rights reserved. 


(Shell build version: Impala Shell v2.0.0 (ecf30af) built on Sat Oct 11 13:56:06 
PDT 2014) 

[impala-proxy:21000] » show tables; 

Query: show tables 


| sample 07 | 
| sample 08 | 


Fetched 2 row(s) in 0.18s 

[impala-proxy:21000] > 
通过 JDBC 驱动 进行 Kerberos 身份 验证 时 ， 首 先 需 要 获取 一 个 Kerberos TGT， 然 后 将 
Impala 主体 的 名 称 包 含 在 连接 字符 串 中 。 示 例 11-13 展示 了 如 何 为 Impala 的 Kerberos 验证 
设置 JDBC 连接 字符 串 。 


示例 11-13 ”用 于 Kerberos 身份 验证 的 JDBC 连接 字符 串 


// 首 先 定义 一 个 基本 的 JDBC URL 字 符 囊 
String url = "jdbc:hive2://impala-proxy.example.com:21050/default"; 





// 添 加 Impala Kerberos 主 体 名 ,包括 FQDN 和 域 
url = url + ";principal=impala/impala-proxy.example.com@EXAMPLE.COM"; 


// 使 用 URL 创 建 连接 


Connection con = DriverManager.getConnection(url); 
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2. 使 用 带 有 LDAP/ Active Directory 验 证 的 Impala 

Impala 还 可 以 被 配置 为 使 用 LDAP 目录 进行 身份 验证 ， 例 如 Active Directory。 使 用 LDAP 
验证 的 优势 在 于 ， 其 客户 端 不 需要 在 连接 到 Impala 之 前 先 获 取 它 们 的 Kerberos 证 书 。 这 个 
优势 对 于 那些 可 能 在 本 地 不 支持 基于 Kerberos 验证 的 商业 智能 软件 来 说 ， 是 很 有 帮助 的 。 
虽然 LDAP 身份 验证 的 配置 独立 于 Kerberos， 但 二 者 通常 会 被 一 起 配置 ， 因 为 Hadoop 设 
有 启用 身份 验证 机 制 时 ， 只 单独 给 Impala 启动 身份 验证 机 制 也 没有 多 大 意义 。 


设置 impalad 守护 进程 中 的 --enable_ldap_auth 和 --ldap_uri parameters 参数 ， 启 用 
LDAP 身份 验证 机 制 。 配 置 LDAP 时， 可 以 根据 使 用 的 LDAP 的 提供 者 选择 性 地 设置 绑 定 
参数 。 若 使 用 Active Directory， 则 通常 不 需要 进行 额外 的 配置 ， 但 需要 明确 设置 域名 ， 从 
而 使 与 AD (Active Directory) 绑 定 的 用 户 名 以 user@<domain name> 的 形式 传递 。 该 域名 
通过 参数 --Ldap_domain 进行 设置 。 对 于 OpenLDAP 或 freeIPA， 可 以 配置 一 个 基准 标识 
域名 ， 从 而 使 与 LDAP 绑 定 的 用 户 名 以 uid-user,«base dn» 的 形式 传递 。 该 设置 通过 参数 
--ldap baseDN 启用 。 若 LDAP 提供 者 不 使 用 uid=user 指定 用 户 名 中 的 唯一 性 名 称 ， 则 可 
以 提供 一 个 会 被 当成 唯一 性 名 称 的 格式 。 通 过 用 首选 绑 定 的 用 户 名 取代 所 有 的 SUID 实例 
得 到 实现 。 该 设置 通过 配置 参数 --Ldap_bind_pattern 启用 。 


不 考虑 LDAP 提供 者 ， 强 烈 推 荐 使 用 TLS 加密 Impala 和 LDAP 服务 器 之 间 的 连接 ， 可 
以 通过 一 个 ldaps://URL 或 启用 StartTLS 完成 。 可 以 将 参数 --ldap_tls 设 为 true 以 启用 
StartTLS。 对 于 任 一 种 模式 ， 必 须 配置 证 书 颁发 机 构 (CA) 的 证 书 ， 以 使 Impala 能 够 信任 
LDAP 服务 器 的 证 书 。 可 以 通过 设置 参数 --ldap_ca_certificate 对 CA 证 书 的 位 置 进行 
配置 。 


示例 11-14~ 示例 11-16 分 别 使 用 Active Directory, OpenLDAP 和 自 定义 LDAP 提供 者 进行 
配置 。 



























































示例 11-14 配置 使 用 Active Directory 的 Impala 


IMPALA_SERVER_ARGS="${IMPALA_SERVER_ARGS} Y 
--enable_ldap_auth=true \ 
--ldap uri-ldaps://ad.example.com V 
--ldap ca certificate-/etc/impala/pki/ca.crt V 
--ldap_domain=example.com" 


示例 11-15 配置 使 用 OpenLDAP 的 Impala 


IMPALA_SERVER_ARGS="${IMPALA_SERVER_ARGS} \ 
--enable_ldap_auth=true \ 
--ldap uri-ldaps://ldap.example.com V 
--ldap ca certificate-/etc/impala/pki/ca.crt V 
--ldap_baseDN=ou=People,dc=example,dc=com" 


示例 11-16 ”配置 使 用 其 他 LDAP 的 Impala 


IMPALA_SERVER_ARGS="${IMPALA_SERVER_ARGS} \ 
--enable_ldap_auth=true \ 
--ldap uri-ldaps://ldap.example.com V 
--ldap ca certificate-/etc/impala/pki/ca.crt V 
--ldap_bind_pattern=user=#UID,ou=users ,dc=example,dc=com" 
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要 使 用 LDAP 验证 机 制 连接 Inpala， 将 命令 行 的 -1 选项 配置 为 impala-shell， 连 接 建 立 
完成 前 会 要 求 键 入 用 户口 令 。 如 果 想 用 与 当前 Linux 用 户 不 同 的 另 一 个 用 户 身份 进行 连接 ， 
可 以 使 用 -u 选项 更 改 用 户 名 。 示 例 11-17 展示 了 如 何 通 过 Impala 控制 台 使 用 LDAP 进行 
身份 验证 。 


示例 11-17 使 用 LDAP/Active Directory 身份 验证 的 Impala 控制 台 


[aliceQhadoop01 ~]$ impala-shell -i impala-proxy -l 

Starting Impala Shell using LDAP-based authentication 

LDAP password for alice: 

Connected to impala-proxy:21000 

Server version: impalad version 2.0.0 RELEASE (build ecf30af0b4d6e56ea80297d 
f2189367ada6b7da7) 

Welcome to the Impala shell. Press TAB twice to see a list of available commands. 
































Copyright (c) 2012 Cloudera, Inc. All rights reserved. 


(Shell build version: Impala Shell v2.0.0 (ecf30af) built on Sat Oct 11 13:5 
6:06 PDT 2014) 

[impala-proxy:21000] » show tables; 

Query: show tables 


| sample 07 | 
| sample 08 | 


Fetched 2 row(s) in 0.16s 

[impala-proxy:21000] > 
Au AR [E FH JDBC 驱动 连接 Impala， 则 需要 在 建立 连接 时 将 用 户 名 和 口令 传递 给 
DriverManager。 示 例 11-18 展示 了 如 何 使 用 JDBC 驱动 连接 使 用 LDAP 验证 的 Impala, 


示例 11-18 用 于 LDAP/Active Directory 身份 验证 的 KDBC 连接 串 


// 定义 一 个 基本 的 JDBC URL HF 
String url = "jdbc:hive2://impala-proxy.example.com:21050/default"; 














// 使 用 URL、 用 户 名 和 密码 创建 连接 

Connection con = DriverManager.getConnection(url, "alice", "secret"); 
3. 为 Impala 启 用 SSL 传 输 加 密 
之 前 介绍 的 方法 涵盖 了 从 客户 端 进行 身份 验证 的 不 同 途径 。 为 客户 端 和 Impala 之 间 的 数据 
传输 建立 一 个 受 保护 的 通道 也 很 重要 ，Impala 处 理 的 数据 较为 敏感 时 ， 这 更 重要 一 一 例如 
数据 需要 被 静态 加 密 时 。 出 于 这 些 目 的 ，Impala 支持 SSL 传输 加 密 。 示 例 11-19 展示 了 必 
需 的 启动 标识 。 


示例 11-19 对 Impala 进行 SSL 配置 


IMPALA_SERVER_ARGS="${IMPALA_SERVER_ARGS} V 
--ssl_client_ca_certificate=/etc/impala/ca.cer \ 
--ssl_private_key=/etc/impala/impala.key \ 
--ssl_server_certificate=/etc/impala/impala.cer 
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ssl private key,ssl server certificate All ssl_client_ca_certificate 的 路 径 对 于 Impala 


用 户 来 说 都 必须 是 可 读 的 ， 并 且 证 书 必须 是 PEM 格式 。 推 荐 将 私 钥 的 权限 限制 为 400。 


Impala 配置 了 SSL 时， 客户 端 还 必须 知道 如 何 正 确 连接 服务 端 。- -ssl 选项 能 够 让 Impala- 
shell 为 连接 而 启用 SSL, --ca_cert 参数 能 指定 用 于 验证 连接 的 Impala 守护 程序 提供 证 书 
的 CA 链 (以 PEM 的 格式 )。 示 例 11-20 展示 了 同时 使 用 Kerberos 验证 机 制 和 SSL 传输 加 


示例 11-20 ”启用 SSL 和 Kerberos 的 Impala 控制 台 


alice@hadoop01 ~]$ impala-shell -i impala-proxy -k --ssl --ca cert /etc/impala/ca.pem 
Starting Impala Shell using Kerberos authentication 

SSL is enabled 

Connected to impala-proxy:21000 

Server version: impalad version 2.0.0 RELEASE (build ecf30af0b4d6e56ea80297d 
f2189367ada6b7da7) 

Welcome to the Impala shell. Press TAB twice to see a list of available commands. 











Copyright (c) 2012 Cloudera, Inc. All rights reserved. 


(Shell build version: Impala Shell v2.0.0 (ecf30af) built on Sat Oct 11 13:5 
6:06 PDT 2014) 

[impala-proxy:21000] » show tables; 

Query: show tables 


| sample 07 | 
| sample 08 | 


Fetched 2 row(s) in 0.16s 
[impala-proxy:21000] > 


11.7.2 Hive 


陈旧 过 时 的 Hive 命令 行 工具 hive 并 不 能 支持 直接 的 Hive 身份 验证 或 授权 ， 而 是 要 么 直接 
访问 HDFS 上 的 数据 ， 要 么 运行 一 个 MapReduce 作业 执行 查询 。 这 意味 着 它 与 我 们 之 前 描 
IRRI Hadoop 命令 遵循 着 同样 的 规则 ， 只 支持 Kerberos 和 委托 令 牌 。hive 命令 基本 已 被 弃 
用 ， 用 户 应 当 使 用 beeline。 


使 用 beeline 或 JDBC 驱动 时 ， 用 户 要 连接 到 负责 解析 查询 和 执行 的 HiveServer2 服务 

程 。HiveServer2 支持 Kerberos, LDAP 和 自 定义 身份 验证 插件 。 由 于 一 次 只 能 配置 一 ~ 
认证 提供 者 (authentication provider)， 所 以 管理 员 配 置 HiveServer2 服务 进程 时 ， 需 要 
选择 其 首选 的 身份 验证 机 制 。 解 决 这 种 限制 的 一 个 方法 是 ， 运 行 多 个 共享 同一 Hive 元 
数据 的 HiveServer2 守护 进程 。 这 要 求 终端 用 户 能 够 根据 其 身份 验证 需求 连接 到 正确 的 
HiveServer2。HiveServer2 的 身份 验证 机 制 可 以 在 hive-site.xml 文件 中 配置 。HiveServer2 
身份 验证 配置 属性 的 描述 见 表 11-2。 









































表 11-2: 配置 HiveServer2 身 份 验证 属性 


































































































m 描述 

hive.server2.authentication 客户 认证 类 型 。 有 效 值 包括 : NONE, LDAP, KERBEROS, 
CUSTOM 

hive.server2.authentication.kerberos.principal HiveServer2 服务 进程 的 Kerberos 主体 

hive.server2.authentication.kerberos.keytab 用 于 KDC 身份 验证 的 keytab 

hive.server2.thrift.sasl.qop Kerberos 连接 使 用 的 SASL 质量 保护 ， 有 效 值 包括 : 
auth 表示 仅 身份 验证 ，auth-int 表示 身份 验证 和 完 
整 性 验证 ，auth-conf 表示 身份 验证 、 完 整 性 和 机 密 
性 (加密) 

hive.server2.use.SSL 设置 为 true， 在 客户 端 与 HiveServer2 服务 之 间 启 用 
TLS 

hive.server2.keystore.path 包含 TLS 要 使 用 的 私 钥 的 Java keystore 文件 路 径 

hive.server2.keystore. password Java keystore 文件 的 密码 

hive.server2.authentication.ldap.url LDAP/Active Directory 服务 器 的 URL; [X 24 hive. 
server2.authentication 设 为 LDAP 时 使 用 

hive.server2.authentication.ldap.Domain 进行 身份 验证 的 Active Directory 3X; {X 当 hive. 
server2.authentication.ldap.url 指向 AD 服务 器 
时 使 用 

hive.server2.authentication.ldap.baseDN hive.server2.authentication.ldap.url 指向 OpenLDAP 
服务 器 时 使 用 的 基准 标识 

hive.server2.custom.authentication.class Sk 现 org.apache.hive.service.auth.PasswdAuthen- 


1. 使 用 HiveServer2 的 Kerberos 身 份 验证 








ticationProviderinterface 的 类 £4, hive.server2. 
authenticationis 设 为 CUSTOM 时 使 用 


配置 HiveServer2 的 Kerberos 身份 验证 与 5.2.5 节 描 述 的 配置 其 他 核心 Hadoop 服务 的 模式 
相同 。 也 就 是 说 ， 需 要 将 认证 类 型 设 为 Kerberos， 并 且 设 置 Kerberos 主体 和 keytab。 设 置 


Kerberos 主体 时 ， 可 以 使 用 HOST 占 位 符 ， 它 会 被 


自动 替换 为 运行 HiveServer2 服务 器 的 完 





全 限定 域名 。 示 例 11-21 展示 了 一 个 启用 Kerberos 身份 验证 的 hive-site.xml 示例 片段 。 


示例 11-21 


<property> 


配置 HiveServer2 HY Kerberos 身份 验证 


<name>hive.server2.authentication</name> 


<value>KERBEROS</value> 
</property> 
<property> 


<name>hive.server2.authentication.kerberos.principal</name> 


«value-hive/ HOSTQEXAMPLE . COM«/value» 
</property> 
<property> 


<name>hive.server2.authentication.kerberos.keytab</name> 
<value>/etc/hive/conf/hive.keytab</value> 


</property> 





Au sa 
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要 想 连接 到 启用 了 Kerberos 的 HiveServer2 服务 进程 的 JDBC 客户 端 ， 需 要 拥有 一 个 有 效 








的 Kerberos TGT， 并 将 HiveServer2 服务 进程 的 主体 添加 到 连接 字符 串 。 如 示例 11-22 所 


pum 





示 ， 创 建 一 个 用 于 Kerberos 身份 验证 的 连接 字符 是 


示例 11-22 ”用 于 Kerberos 身份 验证 的 JDBC 连接 字符 串 


// 首 先 定义 一 个 基本 JDBC URL} H 
String url = "jdbc:hive2://hive.example.com:10000/default"; 





o 


// 添加 Hive Kerberos 3 (KZ , €, 3& FQODNAe 3i, 
url = url + ";principal-hive/hive.example.com(EXAMPLE. COM" ; 


// 根据 URL 创 建 连接 

Connection con = DriverManager.getConnection(url); 
Beeline 控制 台 使 用 Hive JDBC 驱动 连接 HiveServer2, 7332 E FA ki 
然后 使 用 JDBC 连接 字符 串 在 Beeline 中 进行 Kerberos 身份 验证 ， 








nit 获取 Kerberos TGT, 
如 示例 11-23 所 示 。 即 


使 在 使 用 Kerberos 进行 身份 验证 ，Beeline 依然 会 提示 输入 用 户 名 和 密码 。 可 以 将 这 些 内 


Am. EB, 


示例 11-23 ”用 于 Kerberos 身份 验证 的 Beeline 连接 字符 串 


[alice@hadoop01 ~]$ kinit 

Password for alice@EXAMPLE.COM: 
[alice@hadoop01 ~]$ beeline 

Beeline version 0.13.1 by Apache Hive 





beeline> !connect jdbc:hive2://hive.example.com:10000/default;principal-hive/hiv 


e.exampLle.com@EXAMPLE . COM 
scan complete in 2ms 


Connecting to jdbc:hive2://hive.example.com:10000/default;principal-hive/hive.ex 


ample.comQ EXAMPLE. COM 


Enter username for jdbc:hive2://hive.example.com:10000/default;principal-hive/hi 


ve.example.comQEXAMPLE. COM: 


Enter password for jdbc:hive2://hive.example.com:10000/default;principal-hive/hi 


ve.example.comQEXAMPLE . COM: 

Connected to: Apache Hive (version 0.13.1) 

Driver: Hive JDBC (version 0.13.1) 

Transaction isolation: TRANSACTION REPEATABLE READ 
0: jdbc:hive2://hive.example.com» show tables; 
+------------ 十 
| tab name | 
+------------ +--+ 
| sample_07 | 

| sample 08 | 
+------------ +--+ 

2 rows selected (0.261 seconds) 
0: jdbc:hive2://hive.example.com> 


2. 使 用 HiveServer2 的 LDAP/ Active Directory 身 份 验证 








HiveServer2 也 支持 基于 LDAP 的 用 户 名 /口令 身份 验证 。 要 使 月 


日 基于 LDAP 的 身份 验 





证 ， 需 要 将 认证 类 型 设 为 LDAP， 配 置 LDAP URL， 并 且 之 后 设置 一 个 用 于 绑 定 的 域名 或 
基准 标识 名 (base distinguished name)。 绑 定 Active Directory 服务 器 时 使 用 域名 ， 而 绑 定 

















OpenLDAP 3k freeIPA 等 其 他 LDAP 提供 者 时 ， 使 用 基准 标识 名 。 


默认 情况 下 ， 客 户 端 和 HiveServer2 的 连接 是 没有 加 密 的 。 这 意味 着 ， 使 用 
LDAP 或 自 定 义 认证 提供 者 时 ， 用 户 名 和 口令 都 有 可 能 被 第 三 方 拦截 。 使 用 
非 Kerberos 认证 提供 者 时 ， 强 烈 建议 使 用 TLS 开启 HiveServer2 的 线 上 加 
密 ， 详 情 参见 后 文 。 




















无 论 是 哪 种 LDAP 提供 者 ， 我 们 都 强烈 建议 不 要 直接 使 用 LDAP， 而 使 用 LDAPS (LDAP 
over SSL)， 这 能 够 保证 HiveServer2 #11 LDAP 服务 器 之 间 的 通信 是 加 密 的 。 要 使 用 
LDAPS， 需 要 确保 LDAP 服务 器 证 书 或 者 CA 签名 证 书 加 载 到 Java 信任 库 (truststore) 。 
可 以 是 位 于 SJAVA HOME/ jre/lib/security/cacerts 的 整个 系统 的 Java 信任 库 ， 也 可 以 是 
用 于 Hive 的 特定 信任 库 。 如 果 使 用 特定 的 信任 库 ， 需 要 设置 javax.net.ssl.trustStore 
和 javax.net.ssl.trustStorePassword 系统 属性 。 这 可 以 通过 设置 hive-env.sh 文件 中 的 
HADOOP_OPTS 变量 实现 ， 如 示例 11-24 所 示 。 
































示例 11-24 为 Hive 设置 LDAPS 信任 库 


HADOOP_OPTS="-Djavax.net.ssl.trustStore=/etc/pki/java/hive.truststore" 
HADOOP_OPTS="${HADOOP_OPTS} -Djavax.net.ssl.trustStorePassword-secret" 


此 处 使 用 的 信任 库 密码 对 能 够 在 运行 HiveServer2 的 服务 器 上 枚 举 进 程 的 任 
意 用 户 都 是 可 见 的 。 必 须 用 强制 权限 保护 信任 库 文件 本 身 ， 以 防 其 他 用 户 修 
改 信任 库 。 











如 果 要 配置 HiveServer2， 以 对 Active Directory 服务 器 进行 身份 验证 ， 那 么 除了 常规 的 
LDAP 设置 之 外 ， 还 需要 将 hive-site.xml 中 的 hive.server2.authentication.ldap.Domain 
设置 为 AD 域名 ， 如 示例 11-25 所 示 。 


示例 11-25 配置 HiveServer2 中 的 Active Directory 身份 验证 


<property> 
<name>hive.server2.authentication</name> 
«value»LDAP«/value» 

</property> 

<property> 
<name>hive.server2.authentication. ldap.url</name> 
<value>Ldaps: //ad.example.com</value> 

</property> 

<property> 
<name>hive.server2.authentication. Ldap.Domain</name> 
<value>example.com</value> 

</property> 




















如 果 使 用 的 是 其 他 LDAP 提 供 者 ， 如 OpenLDAP, freeIPA 等 ， 那 么 需要 设置 hive. 
server2.authentication.ldap.baseDN 属性 ， 而 不 是 设置 域名 。 基 准 DN 取决 于 环境 ,但 
通常 OpenLDAP 安装 的 默认 值 是 ou=People,dc=example,dc=com， 其 中 dc=example,dc=com 
BERRA) LDAP 服务 器 域 组 件 ， 这 通常 是 LDAP 服务 器 的 域名 。 对 于 freeIPA， 默 认 的 基 
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本 DN 是 cn=users,cn=accounts,dc=example,dc=com， 同 样 ， 也 要 根据 环境 替换 其 中 的 域 组 
件 。 示 例 11-26 提供 了 完整 配置 。 


示例 11-26 ”配置 HiveServer2 中 的 LDAP 身份 验证 


<property> 
<name>hive.server2.authentication</name> 
«value»LDAP«/value» 
</property> 
<property> 
<name>hive.server2.authentication. ldap.url</name> 
«value»ldaps://ldap.example.com«/value» 
</property> 
<property> 
<name>hive.server2.authentication. ldap.baseDN</name> 
«value»ou-People , dczexample  dc2com«/value» 
</property> 








某 些 版 本 的 Hive (尤其 是 Hive 0.13.0 和 0.13.1) 存在 一 个 bug， 即 身份 验证 
类 型 被 设 为 除 KERBEROS 之 外 的 其 他 值 时 ， 它 们 就 不 会 使 用 Kerberos 身份 验 
证 与 Hadoop 通信 。 使 用 这 些 版 本 的 Hive 时 ， 应 当 只 使 用 Kerberos 进行 身份 


验证 。 




















配置 LDAP/Active Directory 身份 验证 后 ， 连 接 HiveServer2 就 很 容易 了 。 只 需 在 建立 连接 
之 后 ， 将 用 户 名 和 口令 传递 给 DriverManager 即 可 ， 如 示例 11-27 所 示 。 


示例 11-27  LDAP/Active Directory 身份 验证 的 JDBC 连接 字符 串 
// 使 用 基本 JDBC URL 字 符 囊 
String url = "jdbc:hive2://hive.example.com:10000/default"; 


// 根据 URL 创 建 提交 用 户 名 和 密码 的 连接 
Connection con = DriverManager.getConnection(url, "alice", "secret"); 
连接 Beeline 的 方法 基本 相同 。 这 次 要 在 connect 命令 后 、 出 现 提示 时 ， 输 入 用 户 名 和 口 
令 ， 如 示例 11-28 所 示 。 








示例 11-28 LDAP/Active Directory 身份 验证 的 Beeline 连接 字符 串 


[alice@hadoop01 ~]$ beeline 

Beeline version 0.13.1 by Apache Hive 

beeline> !connect jdbc:hive2://hive.example.com:10000/default 

scan complete in 2ms 

Connecting to jdbc:hive2://hive.example.com:10000/default 

Enter username for jdbc:hive2://hive.example.com:10000/default: alice 
Enter password for jdbc:hive2://hive.example.com:10000/default: ****** 
Connected to: Apache Hive (version 0.13.1) 

Driver: Hive JDBC (version 0.13.1) 

Transaction isolation: TRANSACTION_REPEATABLE_READ 

0: jdbc:hive2://hive.example.com» show tables; 

+------------ +--+ 

| tab name | 





| sample 07 | 

| sample 08 | 

+------------ +--+ 

2 rows selected (0.261 seconds) 
0: jdbc:hive2://hive.example.com> 


3. 使 用 HiveServer2 的 可 插入 身份 验证 

Hive 具有 实现 新 认证 提供 者 的 可 插入 接口 ，Hive 将 这 种 身份 验证 模式 称 为 CUSTOM, “EG 
要 一 个 实现 了 org.apache.hive.service.auth.PasswdAuthenticationProvider 接口 的 Java 
类 。 该 接口 定义 了 一 个 authenticate(String user, String password) 方法 ， 应 当 实 现 该 方 
法 以 验证 用 户 提 交 的 用 户 名 和 密码 。 顾 名 思 义 ， 该 可 插入 接口 只 支持 使 用 用 户 名 和 密码 进 
行 身份 验证 的 认证 提供 者 。 要 配置 这 种 身份 验证 模式 ， 需 要 将 认证 类 型 设 为 CUSTOM， 并 配 
置 好 身份 验证 类 ， 还 需要 将 包含 身份 验证 类 的 JAR 文件 添加 到 Hive 的 classpath。 最 简单 
的 方法 是 ， 将 JAR 文件 路 径 添加 到 hive-site.xml 中 的 hive.aux.jars.path 配置 项 ， 该 配 
置 项 接受 的 输入 为 逗号 分 隔 的 JAR 文件 全 路 径 (示例 11-29), 


示例 11-29 配置 HiveServer2 中 的 可 插入 身份 验证 


<property> 
<name>hive.server2.authentication</name> 
<value>CUSTOM</value> 

</property> 

<property> 
<name>hive.server2.custom.authentication.class</name> 
<value>com.example.my.whizbang.AuthenticationProvider</value> 

</property> 

<property> 
<name>hive.aux.jars.path</name> 
«value»file:///opt/hive-plugins/whizbang-1.0.jar«/value» 

</property> 


自 定 义 身 份 验 证 的 连接 设置 与 基于 LDAP/Active Directory 的 身份 验证 一 样 (示例 11-18). 
4. HiveServer2 线 上 加 密 

Hive JDBC 驱动 支持 两 种 启用 线 上 加 密 的 方法 ， 使 用 哪 种 方法 取决 于 使 用 的 认证 方法 和 
Hive 版 本 。 使 用 Kerberos 认证 时 ，Hive JDBC 驱动 使 用 SASL 执行 Kerberos 认证 。SASL 
在 基于 一 个 名 为 保护 质量 (quality of protection, QOP) 的 配置 项 进行 身份 验证 时 ， 支 持 
完整 性 验证 和 加 密 。 要 启用 加 密 ， 需 要 将 SASL QOP 设置 为 auth-conf, 它 是 保密 性 身份 验 
WE (authentication with confidentiality) 的 简称 。 示 例 11-30 展示 了 如 何 配置 HiveServer2 以 
使 用 SASL 进行 加 密 。 


示例 11-30 配置 HiveServer2 使 用 SASL 加 密 


<property> 
<name>hive.server2.thrift.sasl.qop</name> 
<value>auth-conf</value> 

</property> 


服务 端 启用 SASL QOP 后 ， 需 要 确保 客户 端 也 将 其 设置 成 同样 的 值 。 可 以 将 sasl.qop-auth- 
conf 选项 添加 到 JDBC URL 以 实现 。 示 例 11-31 展示 了 如 何在 Beeline 中 使 用 SASL 加 密 。 
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示例 11-31 使 用 SASL 加 密 的 Beeline 连接 字符 串 


[alice@hadoop01 ~]$ beeline 

Beeline version 0.13.1 by Apache Hive 

beeline> !connect jdbc:hive2://hive.example.com:10000/default; principal=hive/hiv 
e.exampLle.com@EXAMPLE.COM; sasl.qop=auth- conf 

scan complete in 4ms 

Connecting to jdbc:hive2://hive.example.com:10000/default;principal-hive/hive.ex 
amp Le. com@EXAMPLE.COM; sasl.qop=auth-conf 

Enter username for jdbc:hive2://hive.example.com:10000/default;principal-hive/hi 
ve.examp Le. com@EXAMPLE.COM;sasl.qop=auth-conf: 

Enter password for jdbc:hive2://hive.example.com:10000/default;principal-hive/hi 
ve.example.comQEXAMPLE . COM; sasl.qop-auth-conf: 

Connected to: Apache Hive (version 0.13.1) 

Driver: Hive JDBC (version 0.13.1) 

Transaction isolation: TRANSACTION REPEATABLE, READ 

0: jdbc:hive2://hive.example.com» show tables; 

+------------ +--+ 

| tab name | 
+------------ +--+ 
| sample_07 | 

| sample 08 | 
+------------ +--+ 

2 rows selected (0.261 seconds) 
0: jdbc:hive2://hive.example.com> 


如 果 已 经 配置 Hive 使 用 基于 用 户 名 /密码 的 身份 验证 ， 如 LDAP/Active Directory, HbA 
Hive 就 不 会 再 使 用 SASL 进行 安全 连接 了 。 这 意味 着 需要 另外 一 种 方法 启用 加 密 。 从 Hive 
0.13 开始 ， 可 以 配置 Hive 0.13 或 更 新 的 版 本 ， 以 使 用 TLS/SSL 进行 加 密 。 配 置 Hive 使 用 
TLS 之 前 ， 需 要 将 服务 器 的 私 钥 和 证 书 放 和 一 个 Java keystore 文件 。 假 定 已 经 有 了 一 个 包 
含 私 钥 和 证 书 的 PKCSI2 文件 ， 则 可 以 按照 示例 11-32 所 示 的 步骤 将 其 导入 Java keystore. 
Hive 要 求 私 钥 的 口令 必须 设置 成 与 keystore 的 口令 相同 的 值 。 示 例 中 ， 通 过 在 命令 行 设 
置 -deststorepass 和 -destkeypass 满足 这 个 要 求 。 此 外 ， 还 为 要 导入 的 密 钥 /证 书 提供 
-srcalias 参数 。 














关于 Hive 版 本 的 注意 事项 
[X Hive 0.12.0 或 更 新 版 本 能 够 设置 SASL QOP 属性 ， 对 TLS 加 密 的 支持 则 
要 求 Hive 0.13.0 或 更 新 版 本 。 





示例 11-32 导入 PKCS12 私 钥 到 Java keystore 


[root@hive ~]# mkdir /etc/hive/ssl 

[root@hive ~]# keytool -v -importkeystore \ 
-srckeystore /etc/pki/tls/private/hive.example.com.p12 -srcstoretype PKCS12 \ 
-destkeystore /etc/hive/ssl/hive.example.com.keystore -deststoretype JKS V 
-deststorepass secret -srcalias hive.example.com -destkeypass secret 

Enter source keystore password: 

[Storing /etc/hive/ssl/hive.example.com.keystore] 

[root@hive ~]# chown -R hive:hive /etc/hive/ssl 

[root@hive ~]# chmod 400 /etc/hive/ssl/* 

[root@hive ~]# chmod 700 /etc/hive/ssl 





创建 Java keystore 之 后 ， 可 以 配置 Hive。 如 示例 11-33 所 示 ， 设 置 hive-site.xml 文件 中 
的 配置 项 。 


示例 11-33 ”配置 HiveServer2 以 使 用 TLS 进行 加 密 


<property> 
<name>hive.server2.use.SSL</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.server2.keystore. path</name> 
<value>/etc/hive/ssl/hive.example.com.keystore</value> 

</property> 

<property> 
<name>hive.server2.keystore. password</name> 
<value>secret</value> 

</property> 





使 用 Kerberos 进行 身份 验证 时 ， 无 法 配置 TLS。 如 果 在 使 用 Kerberos 进行 身 
份 验证 ， 那 么 可 以 使 用 SASL QOP 进行 加 密 ， 否 则 使 用 TLS。 





最 后 ， 需 要 在 客户 端 将 ssL=true 添加 到 JDBC URL， 以 启用 TLS。 如 果 证 书 不 是 由 中 央 认 
证 中 心 签发 的 ， 则 还 需要 在 JDBC URL 中 指定 一 个 信任 库 。 配 置 Hive 使 用 LDAPS ht, dX 
们 曾 创建 一 个 信任 库 ， 此 处 可 以 通过 复制 信任 库 文 件 到 客户 端 服务 器 ， 并 设置 JDBC URL 
中 的 sslTrustStore 和 trustStorePassword 参数 复 用 该 信任 库 。 示 例 11-34 在 Beeline 中 使 
JH TLS 进行 加 密 。 


示例 11-34 使 用 TLS 的 Beeline 连接 字符 串 


[aliceQhadoop01 ~]$ beeline 

Beeline version 0.13.1 by Apache Hive 

beeline> !connect jdbc:hive2://hive.example.com:10000/default;ssl-true;sslTrustS 
tore-/etc/pki/java/hive.truststore;trustStorePassword-secret 

scan complete in 3ms 

Connecting to jdbc:hive2://hive.example.com:10000/default;ssl-true;sslTrustStore 
=/etc/pki/java/hive.truststore; trustStorePassword=secret 

Enter username for jdbc:hive2://hive.example.com:10000/default;ssl-true;sslTrust 
Store-/etc/pki/java/hive.truststore;trustStorePassword-secret alice 

Enter password for jdbc:hive2://hive.example.com:10000/default;ssl-true;sslTrust 
Store-/etc/pki/java/hive.truststore;trustStorePassword-secret ********** 
Connected to: Apache Hive (version 0.13.1) 

Driver: Hive JDBC (version 0.13.1) 

Transaction isolation: TRANSACTION REPEATABLE READ 

0: jdbc:hive2://hive.example.com» show tables; 




















+------------ +--+ 
| tab name | 
+------------ +--+ 
| sample_07 | 
| sample_08 | 
+------------ +--+ 


2 rows selected (0.261 seconds) 
0: jdbc:hive2://hive.example.com> 





数据 提取 和 客户 端 访问 安全 | 207 


11.8 WebHDFS/HttpFS 


Hadoop 有 两 种 方法 对 HDFS 开放 REST 接口 : WebHDFS 和 HttpFS。 两 种 系统 都 使 用 了 
同样 的 API， 因 此 同样 的 客户 端 能 够 使 用 这 两 种 中 的 任何 一 种 ， 区 别 在 于 部 署 方式 以 及 数 
据 的 访问 方式 。WebHDFS 实际 上 并 不 是 个 独立 的 服务 ， 它 运行 在 NameNode 和 DataNode 
上 ， 不 适合 不 能 直接 访问 集群 的 用 户 。 实 际 上 ，WebHDFS 最 常 被 用 来 提供 版 本 独立 的 批 
量 访 问 功 能 ， 例 如 分 布 式 复制 命令 DistCp。 示 例 5-10 给 出 了 WebHDFS 的 配置 示例 。 


相 比 之 下 ，HttpFS 作为 一 个 网 关 服 务 运行 ， 类 似 HBase REST 网 关 。 配 置 HttpFS 身份 验证 
的 第 一 步 是 配置 HttpFS， 以 使 用 Kerberos 对 HDFS 进行 身份 验证 。 


<property> 
<name>httpfs.hadoop.authentication.type</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>httpfs.hadoop.authentication.kerberos.principal</name> 
<value>httpfs/httpfs .example.com@EXAMPLE.COM</value> 

</property> 

<property> 
<name>httpfs.hadoop.authentication.kerberos.keytab</name> 
<value>httpfs.keytab</value> 

</property> 


接 下 来 ， 设 置 HttpFS 服务 器 验证 客户 端 身份 的 方式 。 依 然 使 用 Kerberos， 这 将 在 SPNEGO 
上 实现 。 


<property> 
<name>httpfs.authentication. type</name> 
<value>kerberos</value> 

</property> 

<property> 
<name>httpfs.authentication.kerberos.principal</name> 
<value>HTTP/httpfs.example.com@EXAMPLE .COM</value> 

</property> 

<property> 
<name>httpfs. authentication. kerberos.keytab</name> 
<value>httpfs.keytab</value> 

</property> 

<property> 
<name>httpfs. authentication. kerberos.name.rules</name> 
«value»DEFAULT«/value» 

</property> 


最 后 ， 需 要 配置 HttpFS 允许 Hue 用 户 模拟 其 他 用 户 的 身份 ， 这 可 以 通过 典型 的 代理 用 户 
设置 实现 。 例 如 ， 下 列 配置 将 允许 hue 用 户 模 拟 来 自任 意 主机 任意 组 的 用 户 。 


<property> 
<name>httpfs.proxyuser .hue.hosts</name> 
<value>*</value> 

</property> 

<property> 
«name-httpfs.proxyuser.hue.groups«/name» 
«value»*«/value» 

</property> 


















































11.9 小结 


本 章 深 入 介绍 了 客户 端 如 何 访 问 Hadoop 集群 ， 从 而 使 用 其 提供 的 众多 服务 和 存储 的 数 
据 。 显 而 易 见 ， 由 于 提供 给 客户 端的 访问 点 数量 众多 ， 保 证 这 种 访问 的 安全 是 非常 艰巨 的 
任务 。 但 有 一 个 关键 点 始终 贯穿 其 中 : 客户 端 必须 服从 已 制定 的 认证 和 授权 方法 ， 例 如 
Kerberos 和 LDAP 提供 的 。 


本 章 还 讲述 了 用 户 如 何 使 用 Sqoop. Hive, Impala, WebHDFS 和 HttpFS 从 集群 获取 数据 。 
虽然 Hadoop 生态 系统 本 身 已 经 发 展 多 年 ， 但 商业 智能 的 庞大 生态 系统 ETL 也 有 相应 发 


展 ， 甚 他 与 Hadoop 交互 的 相关 工具 亦 是 如 此 。 因 此 ， 对 于 管理 员 而 言 ， 牢 牢 掌 握 平 台 的 
数据 提取 功能 以 及 保护 其 安全 的 模式 是 至 关 重要 的 。 
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第 12 章 


Cloudera Hue 





Hue 是 一 个 Web 应 用 ， 它 为 很 多 Hadoop 生态 系统 项 目 提供 侧重 于 终端 用 户 的 接口 。 
Hadoop 配置 了 Kerberos 认证 后 ，Hue 也 必须 配置 Kerberos 证 书 ， 以 正常 访问 Hadoop。 用 
户 可 以 通过 配置 hue.iini 文件 中 的 如 下 参数 启用 Kerberos, 

hue_principal 


Hue 的 Kerberos 主体 名 称 ， 包 括 Hue 服务 器 的 完全 限定 域名 。 


hue_keytab 

包含 Hue 的 服务 证 书 的 Kerberos keytab 文件 路 径 。 
kinit_path 

Kerberos kinit 命令 的 路 径 。 








reinit_frequency 
Hue 更 新 其 Kerberos 票据 的 频率 (Bb), 


这 些 配 置 应 当 放 在 hue. ini 文件 顶层 [desktop] 部 分 的 [[kerberos]] 小 节 。Hue kerberos 配 
置 如 示例 12-1 所 示 。 








示例 12-1 配置 Hue 中 的 Kerberos 


[desktop] 

[[kerberos]] 
hue_principal=hue/hue.example.com@EXAMPLE.COM 
hue_keytab=/etc/hue/conf/hue. keytab 
reinit_frequency=3600 


Hue 有 自己 的 一 套 认证 后 端 ， 能 够 对 Hadoop 和 其 他 使 用 Kerberos 的 项 目 进行 身份 验证 。 
为 了 代表 其 他 用 户 执行 动作 ，Hadoop 必须 配置 为 信任 Hue 服务 。 这 可 以 通过 配置 Hadoop 
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的 代理 用 户 /用户 模 拟 功能 实现 。 需 要 对 Hue 可 以 运行 的 主机 和 Hue 可 以 模拟 的 用 户 组 进 
行 设置 ， 任 何 一 个 值 都 可 以 设 为 *， 分 别 表 示 局 用 来 自 所 有 主机 或 所 有 组 的 身份 模拟 。 示 
例 12-2 展示 了 从 主机 hue.example.com 以 hadoop-users 组 的 用 户 身份 访问 Hadoop 时 ， 如 
何 使 Hue 进行 用 户 模拟 。 


示例 12-2 ”在 core-site.xml 中 为 Hadoop 配置 Hue 用 户 模拟 


<property> 
<name>hadoop. proxyuser .hue.hosts«/name» 
<value>hue.example.com</value> 

</property> 

<property> 
<name>hadoop. proxyuser .hue.groups</name> 
<value>hadoop-users</value> 

</property> 


HBase 和 Hive 使 用 Hadoop 的 模拟 配置 ， 但 Oozie 必须 单独 配置 。 如 果 想 从 Hue 中 使 用 


Oozie， 必 须 在 oozie-site.xml 文件 中 设置 oozie.service.ProxyUserService.proxyuser . 





«user».hosts 和 oozie.service.ProxyUserService.proxyuser .<user>.groups 属性 。 示 例 
12-3 展示 了 从 主机 hue.example.com 以 hadoop-users 组 的 用 户 身 份 访问 Oozie 时 ， 如 何 使 
Hue 进行 用 户 模拟 。 





示例 12-3 Æ oozie-site.xml 中 为 Oozie 配置 Hue 用 户 模 拟 


<property> 
<name>oozie.service.ProxyUserService. proxyuser.hue.hosts</name> 
<value>hue.example.com</value> 

</property> 

<property> 
«name»oozie.service.ProxyUserService.proxyuser.hue.groups«/name» 
«value-hadoop-users«/value» 

</property> 


如 果 使 用 Hue 的 搜索 应 用 ， 还 需要 在 Solr 中 启用 用 户 模拟 。 具 体 方法 是 设置 /etc/default/ 
solr 文件 中 的 SOLR SECURITY ALLOWED PROXYUSERS, SOLR SECURITY PROXYUSER «user» HOSTS 
和 SOLR. SECURITY PROX YUSER «user» GROUPS 环境 变量 。 示 例 12-4 展 示 了 从 主机 hue. 
example.com [以 hadoop-users 组 的 用 户 身 份 访问 Solr 的 用 户 模 拟 配 置 启用 。 





示例 12-4 f£ /etc/default/solr 中 为 Solr 配置 Hue 用 户 模 拟 


SOLR_SECURITY_ALLOWED_PROXYUSERS=hue 
SOLR SECURITY PROXYUSER hue HOSTS-hue.example.com 
SOLR SECURITY. PROXYUSER hue GROUPS-hadoop-users 


12.4 Hue HTTPS 


默认 情况 下 ，Hue 运行 在 明文 HTTP 上 ， 这 适用 于 概念 证 明 或 者 客户 端 和 Hue 之 间 的 网 络 
完全 可 信 的 情况 。 然 而 对 于 大 部 分 环境 ， 强 烈 推荐 配置 Hue 使 用 HTTPS。 这 在 客户 端 和 
Hue 之 间 的 网 络 不 完全 受信 任 时 尤其 重要 ， 因 为 大 部 分 Hue 的 认证 后 端 支持 通过 浏览 器 表 
单 输入 用 户 名 和 密码 。 
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幸运 的 是 ， 在 Hue 中 配置 HTTPS 很 容易 ， 只 需 配置 ssl_certificate 和 ssl private key, 
这 两 项 都 在 hue. ini 文件 的 desktop 部 分 。 二 者 都 必须 是 PEM 格式 ， 而 且 私 钥 不 能 用 口令 
加 密 ， 如 示例 12-5 所 示 。 


示例 12-5 ”配置 Hue 使 用 HTTPS 


[desktop] 
ssl_certificate=/etc/hue/conf/hue.crt 
ssl_private_key=/etc/hue/conf/hue.pem 





Hue 目前 不 支持 使 用 受 口 令 保护 的 私 钥 。 这 意味 着 尽 最 大 可 能 保护 Hue 的 私 
钥 是 很 重要 的 。 确 保密 钥 被 hue 用 户 所 有 并 只 能 被 其 所 有 者 读 取 (如 chmod 
400 /etc/hue/conf/hue.pm)。 也 可 以 在 文件 系统 中 配置 文件 系统 级 加 密 ， 按 
照 9.2.6 节 的 方法 存储 私 钥 。 如 果 Hue 部 署 在 拥有 被 TLS/SSL 保护 的 其 他 资 
源 的 服务 器 上 ， 建 议 发 放 一 个 仅 供 Hue 使 用 的 证 书 。 


[0] 





























12.2 ”Hue 身 份 验证 


Hue 拥有 可 插 拔 的 身份 验证 框架 ， 其 中 包含 很 多 身份 验证 后 端 。 黑 认 的 身份 验证 后 端 使 用 
支持 数据 库 中 存储 的 用 户 名 密码 私有 列表 。 后 端的 配置 需要 将 [desktop] 4 [[auth]] 小 节 
下 的 backend 属性 设置 为 desktop.auth.backend.AllowFirstUserDjangoBackend。 示 例 12-6 
明确 设置 了 后 端的 hue.ini 文件 。 这 个 设置 是 默认 的 ， 不 必 费 心 。 


示例 12-6 ”配置 默认 的 Hue 身份 验证 后 端 
[desktop] 


[[auth]] 
backend-desktop.auth.backend.AllowFirstUserDjangoBackend 








Hue 还 支持 使 用 Kerberos/SPNEGO, LDAP, PAM 和 SAML 进行 身份 验证 。 此 处 不 一 一 介 
绍 ， 要 了 解 更 多 信息 请 参考 config help (r4, ' 


12.2.1 SPNEGO 后 端 


简单 和 受 保 护 的 GSSAPI 协商 机 制 (SPNEGO) “是 一 个 允许 客户 端 和 服务 端 协商 选择 身份 
验证 技术 的 GSSAPI 伪 机 制 。 客 户 端 想 在 远程 服务 器 上 进行 身份 验证 ， 但 双方 事先 不 知道 
对 方 支持 的 认证 协议 时 ， 即 可 使 用 SPNEGO。SPNEGO 最 常用 的 地 方 是 Microsoft 最 先 提 
出 的 HTTP 协商 协议 。， 


Hue 只 支持 使 用 Kerberos V5 作为 底层 机 制 的 SPNEGO， 这 尤其 意味 着 ，Hue 无 法 与 
Microsoft NT LAN Manager (NTLM) 协议 一 起 使 用 。 为 SPNEGO 配置 Hue 时 ， 需 要 将 























注 1: 根据 Hue 的 安装 方式 ， 可 以 执行 /usr/share/hue/build/env/bin/hue config help 或 /opt/cloudera/ 
parcels/CDH/lib/hue/build/env/bin/hue config help 以 执行 config_help 命令 。 

注 2: SPNEGO 伪 机 制 的 描述 请 参考 RFC 4178 (http://tools.ietf.org/html/rfc4178 ) 。 

注 3: 详 见 Microsoft 的 MSDN 文章 (http://msdn.microsoft.com/en-us/library/ms995329.aspx ) 。 
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Hue 身份 验证 后 端 设 为 SpnegoDjangoBackend (示例 12-7), ， 同 时 将 KRBS_KTNAME 环境 变量 
设 为 含有 HTTP/< 完全 限定 域名 >@<REALM> 主体 密 钥 的 keytab 文件 位 置 。 如 果 在 服务 器 hue. 
example.com 上 手动 启动 Hue， 并 且 keytab 文件 位 于 /etc/hue/conf/hue.keytab， 那 么 应 当 
如 示例 12-8 所 示 启 动 Hue. 








示例 12-7 配置 SPNEGO Hue 身份 验证 后 端 


[desktop] 


[[auth]] 
backendzdesktop.auth.backend.SpnegoDjangoBackend 


示例 12-8 配置 KRB5_KTNAME 并 人 工 局 动 Hue 


[hue@hue ~]$ export KRB5_KTNAME=/etc/hue/conf/hue.keytab 
[hue@hue -]$ ${HUE_HOME}/build/env/bin/supervisor 


要 使 用 SPNEGO， 还 需要 在 桌面 上 拥有 一 个 TGT (例如 通过 运行 kinit 获得 )， 并 且 需 
要 使 用 支持 SPNEGO 的 浏览 器 。Internet Explorer 和 Safari 都 不 需要 额外 配置 就 能 支持 
SPNEGO。 如 果 使 用 Firefox， 首 先 必须 将 进行 身份 验证 所 用 的 服务 器 名 或 域名 添加 到 受 
信 URI 列表 。 具 体 方法 是 ， 在 URL 栏 键入 about:config， 搜 索 network.negotiate-auth. 
trusted-uris， 然 后 更 新 该 项 使 其 包含 该 服务 器 名 或 域名 。 例 如 ， 如 果 想 在 example.com 
域 的 任意 服务 器 中 都 支持 SPNEGO， 那 么 需要 设置 network.negotiate-auth.trusted- 
uris=example.com。 如 果 党 试 连 接 Hue 时 看 到 401 Unauthorized 信息 ， 那 么 可 能 没有 在 
Firefox 中 正确 配置 受信 URI。 























12.2.2 SAML 后 端 


Hue 还 支持 使 用 安全 断言 置 标语 言 (Security Assertion Markup Language, SAML) 标准 
进行 单 点 登录 (SSO), SAML 工作 原理 是 ， 将 服务 提供 者 (Service Provider, SP) 与 身 
份 提供 者 (Identity Provider, IdP) 隔离 。 请 求 访问 某 个 资源 时 ，SP 会 重 定向 到 IdP， 坟 
在 那里 进行 身份 验证 ，IdP 随后 会 向 负责 授予 目标 资源 访问 权限 的 SP 传递 一 个 验证 身份 的 
We. AIA REF SAML 的 文章 (http://bit.ly/1GFpLur) 里 有 更 多 细节 ， 包 括 一 个 展示 
SAML 过 程 步 又 的 图 示 。 


配置 SAML 身份 验证 后 端 之 后 ，Hue 就 会 作为 服务 提供 者 重 定向 到 身份 提供 者 ， 以 进行 身 
份 验证 。 配 置 Hue 使 用 SAML 比 使 用 其 他 身份 验证 后 端 更 为 复杂 。Hue 必须 与 一 个 第 三 

身份 提供 者 进行 交互 ， 因 此 其 中 的 一 些 细 市 就 会 取决 于 使 用 的 是 哪个 身份 提供 者 。 另 外 ， 
Hue 与 一 些 使 用 SAML 所 需 的 依赖 不 兼容 ， 因 此 先 根据 示例 12-9 中 的 步骤 安装 所 需 依 赖 。 


示例 12-9 安装 SAML 身份 验证 后 端的 依赖 
[root@hue ~]# yum install swig openssl openssl-devel gcc python-devel 
Loaded plugins: fastestmirror, priorities 
Loading mirror speeds from cached hostfile 
* base: mirror.hmc.edu 
* extras: mirrors.unifiedlayer.com 
* updates: mirror.pac-12.o0rg 





TY 
































Complete! 
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[root@hue ~]# yum install xmlsec1 xmlseci-openssl 
Loaded plugins: fastestmirror, priorities 
Loading mirror speeds from cached hostfile 


* base: mirror.hmc.edu 
* extras: mirrors.unifiedlayer.com 
* updates: mirror.pac-12.org 


Complete! 


[root@hue ~]# SHUE HOME/build/env/bin/pip install --upgrade setuptools 

Downloading/unpacking setuptools from https://pypi.python.org/packages/sourc 

e/s/setuptools/setuptools-7.0.tar.gzimd5-6245d6752e2ef803c365f560f7f2f940 
Downloading setuptools-7.0.tar.gz (793Kb): 793Kb downloaded 


Successfully installed setuptools 
Cleaning up... 


[root@hue ~]# SHUE HOME/build/env/bin/pip install -e V 
git+https://github.com/abec/pysaml2@HEADHegg=pysamL2 
Obtaining pysaml2 from git+thttps://github.com/abec/pysaml2@HEAD#egg=pysaml2 


Updating ./build/env/src/pysaml2 clone 


(to HEAD) 


Successfully installed pysaml2 m2crypto importlib WebOb 


Cleaning up... 


[root@hue ~]# SHUE HOME/build/env/bin/pip install -e \ 
git«https://github.com/abec/djangosaml 2GHEADstegg-d jangosaml2 
Obtaining djangosaml2 from git+https: //github.com/abec/djangosaml2@HEAD#Hegg= 


djangosaml2 


Cloning https://github.com/abec/djangosaml2 (to HEAD) to ./build/env/src/d 


jangosaml2 


Successfully installed djangosaml2 
Cleaning up... 








如 上 安装 一 些 开 发 工具 ， 随 后 就 会 安装 SAML 工作 所 需 的 Python 模块 。 安 装 完 这 些 依 


赖 之 后 ， 需 要 从 身份 提供 者 处 下 载 元 数据 文 全 
供 者 。 对 于 Shibboleth 身份 提供 者 ， 可 以 使 


metadata.xml, 





[root@hue ~]# mkdir /etc/hue/saml 


FF， 具体 的 细节 取决 于 使 用 的 是 何 种 身份 提 
用 curl 将 metadata 下载 到 /etc/hue/saml/ 


[root@hue ~]# curl -k -o /etc/hue/saml/metadata.xml \ 
https: //idp.example.com:8443/idp/shibboleth 


还 需要 一 个 证 书 和 私 钥 对 请 求 进行 签名 。 这 个 密 钥 必须 被 身份 提供 者 所 信任 ， 能 够 对 请 求 
进行 签名 ， 因 此 可 能 不 能 仅 复 用 启用 Hue 的 HTTPS 时 所 用 的 密 钥 和 证 书 。 就 本 文 而 言 ， 
我 们 假定 已 经 创建 了 密 钥 和 证 书 ， 并 且 分 别 存放 在 /etc/hue/saml/key.pem 和 /etc/hue/ 
saml/idp.pem 文件 中 ， 剩 下 的 就 是 配置 Hue 本 身 了 。 示 例 12-10 给 出 了 /etc/hue/conf/ 














hue.ini 文件 中 的 相关 部 分 。 


示例 12-10 MÆ SAML Hue 身份 验证 后 端 


[desktop] 
[[auth]] 
backend-libsaml.backend.SAML2Backend 





[libsaml] 

xmlsec binary-/usr/bin/xmlseci 

create users on login-true 

metadata file-/etc/hue/saml/metadata.xml 
key. file-/etc/hue/saml/key.pem 

cert file-/etc/hue/saml/idp.pem 


有 一 些 额外 可 选 的 配置 参数 可 以 在 samt 配置 组 里 设置 ， 完 整 的 配置 参数 列表 如 下 。 








xmlsec_binary 
xmlsecl 程序 的 路 径 ， 该 程序 用 于 签名 、 验 证 、 加 密 和 解密 SAML 请 求 和 断言 。 典 型 人 
为 /usr/bin/xmLsec1。 





TI 











create_users_on_login 
登录 时 创建 Hue 用 户 ， 可 以 是 true 或 者 false。 
required_attributes 
Hue 必需 的 、 从 IdP 获取 的 属 


optional_attributes 
Hue 可 以 处 理 的 从 IdP 获 取 的 属性 。 其 值 是 逗号 分 隔 的 属性 列表 ， 处 理 方 式 与 


required_attributes 一 样 。 


rE 


。 其 值 是 逗号 分 隔 的 属性 列表 。 例 如 : uid, email, 


























metadata_file 

从 IdP 获取 的 元 数据 XML 文件 的 路 径 。 该 文件 必须 能 够 被 hue 用 户 读 取 。 
key_file 

PEM 格式 的 密 钥 文件 。 


cert file 


PEM 格式 的 X.509 证 书 。 











user_attribute_mapping 
将 从 IdP 接收 到 的 属性 (在 required attributes, optional attributes 和 IdP 配置 中 
PEM) 映射 到 Hue 用 户 属性 。 例 如 : {uid:'username', email: email}, 
authn_requests_signed 
对 身份 验证 请 求 进行 签名 。 其 值 可 以 是 true 或 false, fed IdP 文档 ， 确 认 是 否 需要 进 
行 该 项 设置 。 

















logout requests signed 
对 登 出 请 求 进行 签名 。 甚 值 可 以 是 true 或 false。 检 查 IdP 文档 确认 是 否 需要 进行 该 
项 设置 。 














12.2.3 LDAP 后 端 

最 后 一 种 身份 验证 方式 是 使 用 LDAP/Active Directory 验证 用 户 名 和 口令 。 有 两 种 配置 Hue 
HJ LDAP 后 端的 方法 ， 第 一 种 方法 是 进行 LDAP 搜索 ， 找 到 用 户 的 标识 名 (DN)， 然 后 使 
用 DN 4672] LDAP; 第 二 种 方法 是 向 Hue 提供 一 个 填写 了 用 户 名 的 DN 模式 ， 之 后 不 用 
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搜索 即 可 绑 定 。 


配置 Hue 使 用 搜索 绑 定 时 ， 必 须 将 search bind authentication jx 7j true, Jf Yt W 
desktop 节 ldap 小 节 中 的 ldap url 和 base_dn， 还 必须 设置 desktop 节 ldap 小 节 下 users 
小 节 中 的 user. filter 和 user_name_attr， 还 应 当 设置 desktop 节 ldap 小 节 下 groups 小 节 
中 的 group filter, group_name_attr 和 group_member_attr， 这 样 才 能 将 LDAP 组 导入 为 
Hue 组 。 


示例 12-11 展示 了 使 用 搜索 绑 定 进行 LDAP 身份 验证 的 hue.ini 配置 文件 片段 。 示 
例 中 ，LDAP 服务 器 运行 在 ldap.example.com 的 LDAPS 上 。 该 LDAP 服务器 将 用 户 
和 组 存储 在 一 个 基准 DN cn=accounts，dc=example,dc=com 之 下 。 最 后 ， 用 户 账户 在 
objectClass-posixaccount 中 ， 用 户 组 在 objectClass=posixgroup 中 。 对 于 所 有 LDAP 相 
关 配 置 的 完整 描述 见 表 12-1。 


示例 12-11 配置 使 用 搜索 绑 定 的 LDAP Hue 身份 验证 后 端 


[desktop] 


[[auth]] 
backend=desktop. auth. backend. LdapBackend 








[[1dap]] 

ldap url-ldaps://ldap.example.com 
base_dn="cn=accounts ,dc=example,dc=com" 
search_bind_authentication=true 

ldap cert-/etc/hue/conf/ca.crt 

use start tls-false 

create users on login-true 


[E[users]]] 


user_filter="objectClass=posixaccount" 
user_name_attr="uid" 


[LEgroups]]] 

group filter-"objectClass-posixgroup" 
group name attrz"cn" 

group member attr-"member" 


如 果 倾 向 于 使 用 直接 绑 定 ， 那 么 必须 将 search bind authentication iz false, 并且 根据 
使 用 的 是 Active Directory 还 是 其 他 LDAP 提供 者 分 别 设置 nt. domain 或 者 ldap_username_ 
pattern。 仍 然 必 须 配置 搜索 相关 的 配置 项 (例如 user_filter、user_name_attr 等 )， 因 为 
从 LDAP 同步 用 户 和 组 的 时 候 会 用 到 。 如 果 想 要 使 用 与 之 前 相同 的 服务 器 配置 ， 但 是 用 直 
接 绑 定 而 不 是 搜索 绑 定 ， 那 么 与 示例 12-12 类 似 。 再 次 强调 ，LDAP 配置 参数 的 完整 列表 
见 表 12-1。 


示例 12-12 配置 使 用 直接 绑 定 的 LDAP Hue 身份 验证 后 端 


[desktop] 


[[auth]] 
backend=desktop. auth. backend. LdapBackend 
































[[1dap]] 
ldap url-ldaps://ldap.example.com 





base_dn="cn=accounts ,dc=exampLe ,dc=com" 

search_bind_authentication=false 
ldap_username_pattern="uid=<username>,cn=users,cn=accounts,dc=example,dc=com" 
ldap cert-/etc/hue/conf/ca.crt 

use start tls-false 

create users on login-true 


[[[users]]] 


user_filter="objectClass=posixaccount" 
user_name_attr="uid" 


[[[groups]]] 
group_filter="objectClass=posixgroup" 
group_name_attr="cn" 
group_member_attr="member" 


3212-1: Hue LDAP 身 份 验 证 的 配置 属性 






















































































































































































T 属性 描述 

desktop.auth backend 使 用 的 身份 验证 后 端 ( 设 为 desktop.auth.backend . 
LdapBackend) 

desktop. ldap ldap url LDAP 服务 器 URL (对 于 安全 LDAP 使 用 ldaps://) 

desktop. ldap base_dn 用 于 LDAP 搜索 的 基本 LDAP 标识 名 

desktop. ldap bind_dn 搜索 LDAP 时 绑 定 的 标识 名 ， 仅 当 LDAP 服务 器 上 
的 匿名 搜索 被 禁用 时 需要 

desktop. ldap bind_password bind dn 用 户 的 密码 ; (C4 LDAP 服务 器 上 的 匿名 搜 
索 被 禁用 时 需要 

desktop. ldap create users on login 设 为 true， 在 首次 登录 时 创建 用 户 ， 如 果 设 为 
false， 管 理 员 必须 手动 向 Hue a 用 户 ， 之 后 这 些 
用 户 才 能 使 用 其 LDAP 凭证 登 

desktop. ldap search bind authentication 设 为 true， 使 用 搜索 绑 定 ; n" false， 启 用 直接 绑 定 

desktop. ldap ldap_username_pattern 从 用 户 名 创建 标识 名 的 模式 一 一 必须 包含 字符 串 
<username>， 该 值 会 被 用 户 的 用 户 名 替代 ， 从 而 
创建 最 终 的 DN; 仅 当 配置 Hue 为 直接 绑 定时 (HII 
search_bind_authentication=false) 使 用 

desktop. ldap nt_domain Active Directory 服务 器 的 NT 域 , 仅 当 配置 Hue 为 
直接 绑 定 时 ( 即 search_bind_authentication=false) 
使 用 

desktop. ldap ldap cert 验证 LDAP 服务 器 证 书 的 CA 证 书 位 置 

desktop. ldap use_start_tls 设 为 true， 使 用 StartTLS; ldap url 为 ldaps://URL 
FF, ie false 

desktop.ldap.users ^ user filter 搜索 用 户 时 使 用 的 基础 过 滤器 

desktop.ldap.users ^ user name attr LDAP 模式 中 的 用 户 名 属性 (通常 是 Active Diretory 
的 sAMAccountName 和 LDAP 目录 的 uid) 

desktop.ldap.groups group filter 搜索 组 时 使 用 的 基础 过 滤器 

desktop.ldap.groups group name attr LDAP 模式 中 的 组 属性 (通常 是 cn) 

desktop.ldap.groups group member attr 指定 组 成 员 的 LDAP 属性 (通常 是 member ) 
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由 示例 12-11 和 示例 12-12 可 知 ， 将 Ldap_cert 设置 为 指向 一 个 CA 证 书 ， 这 是 必需 的 ， 
因为 使 用 了 Ldaps:// 的 方式 配置 LDAP URL。 强 烈 建议 使 用 LDAPS 或 StartTLS。 使 用 
StartTLS 时 ， 要 用 ldap:// 的 方式 配置 LDAP URL， 并 且 将 use start tls ig true, 


12.3 ”Hue 授 权 


Hue 有 两 种 用 户 账户 : 普通 用 户 和 超级 用 户 。 普 通用 户 由 基于 访问 控制 表 (ACL) 的 授权 
系统 进行 管理 ， 该 系统 控制 着 哪些 应 用 权限 可 用 于 哪些 组 。Hue 超级 用 户 可 以 : 


。 添加 和 删除 用 户 

。 添加 和 删除 组 

。 给 组 分 配 权 限 

。 将 某 个 用 户 变 为 超级 用 户 

。 从 LDAP 服务 器 导入 用 户 和 组 

。 安装 查询 、 表 和 数据 的 样 例 

。 碍 看、 提交 和 修改 任意 Oozie 工作 流 、 协 调 程 序 或 bundle 
。 查看 和 修改 Sentry 权限 时 模拟 任意 用 户 

。 查看 和 修改 HDFS ACLs 时 模拟 任意 用 户 




















Hue 超级 用 户 与 HDFS 超级 用 户 不 同 。HDFS 超级 用 户 是 运行 NameNode 守 
护 进程 的 用 户 ， 通 常 是 hdfs， 并 拥有 列举 、 读 取 和 写 入 任意 HDFS 文件 和 
目录 的 权限 。 如 果 想 从 Hue 上 执行 HDFS 超级 用 户 操 作 ， 需 要 添加 一 个 与 
HDFS 超级 用 户 同名 的 用 户 。 或 者 可 以 设置 HDFS 超级 组 ， 以 给 一 组 用 户 分 
配 HDFS 超级 用 户 权 限 。 参 考 6.1 节 。 





每 个 Hue 应 用 定义 了 用 户 可 以 执行 的 一 个 或 多 个 操作 ， 授 权 控 制 通过 为 每 个 操作 配置 ACL 
实现 ，ACL 列 出 了 可 以 执行 该 操作 的 组 。 每 个 应 用 都 有 一 个 名 为 “启动 该 应 用 ”的 操作 ， 
这 决定 了 哪些 用 户 可 以 运行 该 应 用 。 一 些 应 用 还 定义 了 额外 的 可 控 操 作 。 


Hue 中 授予 的 权限 仅仅 是 从 特定 Hue 应 用 调用 特定 操作 的 权限 。 执 行 某 个 操 
作 的 用 户 仍然 需要 由 被 他 们 访问 的 服务 进行 授权 。 例 如 ， 一 个 用 户 可 能 拥有 
Metastore 应 用 中 “人 允许 DDL 操作 ”的 权限 ， 但 如 果 没 有 Sentry 数据 库 中 的 
ALL 权限 ， 依 然 无 法 创建 表 。 








HBase 应 用 定义 了 “允许 在 HBase 应 用 中 写 人 ”的 操作 ， 这 授予 了 从 HBase 应 用 中 添加 
行 、 添 加 单元 、 编 辑 单 元 、 删 除 行 和 删除 单元 的 权限 。Metastore 应 用 定义 了 “人 允许 DDL 
操作 ”的 操作 ， 这 授予 了 从 metastore 浏览 嚣 创建、 编辑 和 删除 表 的 权限 。Oozie 应 用 定义 
了 “对 所 有 作业 的 Oozie 仪表 盘 只 读 用 户 "， 这 授予 了 对 一 一 无 论 是 否 被 共享 一 一 所 有 工作 
流 、 协 调 器 和 bundle 进行 只 读 访问 的 权限 。Security 应 用 定义 了 “列举 文件 或 表 等 对 象 时 ， 
让 一 个 用 户 模拟 另外 一 个 用 户 的 身份 ”的 操作 ， 该 操作 允许 用 户 模拟 其 他 用 户 ， 并 查看 该 
用 户 能 访问 哪些 表 、 文 件 和 目录 。 
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为 “列举 文件 或 表 等 对 象 时 ， 让 一 个 用 户 模 拟 另 外 一 个 用 户 的 身份 ”授予 权 


限 ， 会 暴露 原本 不 可 用 的 
用 户 模拟 另 一 个 能 够 查看 


谨慎 。 男 外 值得 提醒 的 是 ， 


盲 息 。 特 别 地 ， 它 允许 一 个 没有 获得 授权 的 已 登录 





目录 中 文件 的 用 户 ， 授 予 执行 该 操作 的 权限 时 应 当 
Hue 超级 用 户 还 能 够 在 Security 应 用 中 模拟 用 户 ， 











因此 将 一 个 用 户 变 为 Hue 超级 用 户 时 也 应 当 注意 。 





Useradmin 应 用 定义 了 “在 User Admin 上 访问 个 人 资料 页 面 ” 的 操作 ， 但 该 操作 已 被 弃 
A, 可 放心 忽略 。 


12.4 Hue SSL À HMA 


之 前 介绍 了 很 多 安全 相关 的 配置 ， 但 还 没有 详尽 介绍 如 何在 一 般 情 况 下 建立 和 配置 Hue, 
这 超出 了 本 书 范围 。 但 一 个 重要 问题 是 ， 各 种 底层 组 件 被 配置 成 SSL 在 线 加 密 时 ， 如 何 
恰当 配置 Hue。 如 果 Hadoop, Hive 和 Impala 启用 了 SSL， 示 例 12-13 展示 了 必要 的 配 
置 片段 。 


示例 12-13 Hue SSL 配置 


# Non-SSL configurations omitted for brevity 
[beeswax ] 

[[sst]] 
enabled=true 
cacerts=/etc/hue/ca.cer 
key=/etc/hue/host.key 
cert=/etc/hue/host.cer 
validate=true 

[impala] 

[[sst]] 
enabled=true 
cacerts=/etc/hue/ca.cer 
key=/etc/hue/host.key 
cert=/etc/hue/host.cer 
validate=true 


Hive 和 Impala 配置 中 ，validate 选项 都 会 指定 是 否 要 求 Hue 验证 哪些 服务 提供 的 证 书 是 
由 配置 的 证 书 链 中 的 机 构 签发 的 。 


除 示 例 之 外 ， 环 境 变 量 REQUESTS_CA_BUNDLE 需要 指向 SSL 证 书 链 (PEM 格式 ) 文件 所 在 
的 磁盘 位 置 。 这 被 Hadoop SSL 客户 端 用 于 访问 HDFS、MapReduce、YARN 和 HttpFS。 


12.5 小结 


本 章 详细 讨论 了 允许 终端 用 户 通过 集中 式 
要 地 位 。 在 Hue 的 帮助 下 ， 用 户 只 需 登录 
统 用 户 的 身份 模拟 执行 。 

本 章 对 数据 安全 组 件 的 讨论 到 此 结束 ， 接 下 来 通过 一 些 实际 场 
到 的 知识 。 








网 络 控制 台 访问 各 种 生态 系统 组 件 时 ，Hue 的 重 
网 络 控制 台 一 次 ， 剩 下 的 集群 操作 都 通过 Hue A 











X 


习 ， 整 合 之 前 学 


的 案例 学 
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第 四 部 分 





综合 应 用 


BIS 





案例 分 析 


本 章 将 介绍 两 个 覆盖 了 书 中 很 多 安全 主题 的 案例 分 析 。 首 先 ， 我 们 看 一 下 如 何在 多 重任 务 
处 理 环境 中 使 用 Sentry， 以 控制 SQL 访问 数据 。 这 在 深 入 讨论 一 个 更 详细 的 案例 前 是 个 很 
好 的 热 旱 ， 接 下 来 的 案例 展示 了 一 个 自 定义 HBase 应 用 以 及 各 种 安全 特性 。 


13.1 案例 分 析 : Hadoop 数 据 仓库 


大 数据 和 Hadoop 的 主要 好 处 之 一 就 是 ， 可 以 汇集 很 多 不 同 的 数据 集 解 决 独特 问题 。 随 之 
而 来 的 是 跨越 多 个 业务 线 的 不 同类 型 的 用 户 。 该 案例 分 析 中 ， 我 们 将 看 看 在 包含 多 条 业务 
线 、 多 个 数据 所 有 者 以 及 不 同 分 析 员 的 环境 下 ， 如 何 用 Sentry 提供 强大 的 Hive 和 Impala 
数据 授权 。 


首先 列 出 这 个 案例 分 析 的 假设 。 








环境 包含 3 条 业务 线 ， 我 们 将 其 称 为 Lob1、Lob2 和 Lob3 。 

每 条 业务 线 拥有 分 析 员 和 管理 员 : 

一 分 析 员 由 组 Loblgrp、Lob2grp 和 lob3grp 定义 ; 

一 管理 员 由 组 Lobladm、Lob2adm 和 Lob3adm 定义 ; 

一 管理 员 也 在 分 析 员 组 中 。 

每 条 业务 线 均 需要 在 HDFS 中 拥有 自己 的 沙 箱 区 进行 即席 分 析 , 并 上 传 自 服务 的 数据 资源 。 
每 条 业务 线 拥有 自己 的 管理 员 ， 控 制 对 各 自 沙 箱 的 访问 权限 。 

Hive 仓库 中 的 数据 是 IT 管理 的 ， 意 味 着 只 有 非 交 互 的 ETL 用 户 会 添加 数据 。 
RA Hive 管理 员 会 在 Hive 仓库 中 创建 新 的 对 象 。 

Hive 仓库 使 用 默认 的 HDFS 路 径 /user/hive/warehouse, 

已 经 为 集群 设置 Kerberos。 

环境 中 已 经 建立 Sentry。 
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13.1.1 


HDFS 已 经 启用 扩展 ACL, 
HDFS 的 默认 权限 掩 码 设置 为 007。 


环境 搭建 


有 了 基本 假设 后 ， 需 要 在 HDFS 中 为 Sentry 准备 必要 的 目录 。 首 先 要 做 的 就 是 锁定 Hive 


仓库 目录 。 启 用 Sentry 时 ，HiveServer2 的 身份 模拟 会 被 禁用 ， 所 以 




















只 有 hive 组 具有 访问 


权限 (包括 hive 和 impala 用 户 )。 我 们 需要 做 的 如 下 所 示 : 


[root@server1 ~]# kinit hive 
Password for hive@EXAMPLE.COM: 
[root@server1 ~]# hdfs dfs -chmod -R 0771 /user/hive/warehouse 
[root@server1 ~]# hdfs dfs -chown -R hive:hive /user/hive/warehouse 


正如 前 面 假设 所 


[rootQserver1 


mik 


E 


~]# 





每 条 业务 线 都 需要 一 个 沙 箱 区 域 。 需 要 创建 一 个 /data/sandbox 作为 


所 有 沙 箱 的 根 目 录 ， 然 后 在 其 中 创建 相应 的 结构 : 


[root@server1 ~]# kinit hdfs 
Password for hdfs@EC2. INTERNAL: 


基本 的 目录 结构 建 好 之 后 ， 需 要 开始 思 芳 ， 要 用 什么 支持 Hive 和 Impala 访问 沙 箱 ， 


[rootQserver1 
[rootQserver1 
[rootQserver1 
[root@server1 
[root@server1 
[root@server1 
[root@server1 
[root@server1 
[root@server1 
[root@server1 
[root@server1 
[root@server1 


~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 


hdfs 
hdfs 
hdfs 
hdfs 
hdfs 
hdfs 
hdfs 
hdfs 
hdfs 
hdfs 
hdfs 


dfs 
dfs 
dfs 
dfs 
dfs 
dfs 
dfs 
dfs 
dfs 
dfs 
dfs 


-mkdir /data 

-mkdir /data/sandbox 

-mkdir /data/sandbox/lob1 

-mkdir /data/sandbox/lob2 

-mkdir /data/sandbox/lob3 

-chmod 770 /data/sandbox/Lob1 
-chmod 770 /data/sandbox/lob2 
-chmod 770 /data/sandbox/lob3 
-chgrp Lob1grp /data/sandbox/Lob1 
-Chgrp Lob2grp /data/sandbox/lob2 
-Chgrp Lob3grp /data/sandbox/Lob3 


E 
毕竟 


这 些 沙 箱 是 所 有 用 户 要 进行 即席 分 析 的 地 方 。hive 和 impala 用 户 都 需要 访问 这 些 目录 ， 
所 以 下 面 要 创建 HDFS 扩展 的 ACL (HDFS-extended ACL)， 以 允许 hive 组 的 完全 访问 。 


[rootQserver1 
[rootQserver1 
[rootQserver1 
[rootQserver1 
[rootQserver1 
[rootQserver1 
[rootQserver1 





ACL, 


~]# 
~]# 
~]# 
~]# 
~]# 
~]# 
~]# 





hdfs dfs 
hdfs dfs 
hdfs dfs 
hdfs dfs 
hdfs dfs 
hdfs dfs 











-setfacl -m 
-setfacl -m 
-setfacl -m 
-setfacl -m 
-setfacl -m 
-setfacl -m 


default:group:hive:rwx /data/sandbox/lob1 
default:group:hive:rwx /data/sandbox/lob2 
default:group:hive:rwx /data/sandbox/lob3 
group:hive:rwx /data/sandbox/lob1 
group:hive:rwx /data/sandbox/lob2 
group:hive:rwx /data/sandbox/lob3 








记 住 ， 默 认 ACL 只 适用 于 目录 ， 它 仅 规定 了 复制 到 新 的 子 目 录 和 文件 中 的 
由 于 这 个 原因 ， 父 








目录 依然 需要 一 个 常规 访问 ACL。 





接 下 来 需要 确保 ， 无 论 谁 创建 新 文件 ， 都 能 保持 预期 的 访问 权限 不 变 。 如 果 放 任 现在 的 权 
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限 不 管 ， 那 么 hive 或 impala 用 户 新 创建 的 目录 和 文件 就 可 能 被 业务 线 中 的 分 析 员 和 管理 
员 访 问 。 为 了 解决 这 个 问题 ， 向 扩展 ACL 添加 以 下 组 : 


[root@server1 ~]# hdfs dfs -setfacl -m default:group:lobigrp:rwx V 





/data/sandbox/lob1 

[root@server1 ~]# hdfs dfs -setfacl -m default:group:lobiadm:rwx V 
/data/sandbox/lob1 

[root@server1 ~]# hdfs dfs -setfacl -m default:group:lob2grp:rwx \ 
/data/sandbox/lob2 

[root@server1 ~]# hdfs dfs -setfacl -m default:group:lob2adm:rwx V 
/data/sandbox/lob2 

[root@server1 ~]# hdfs dfs -setfacl -m default:group:lob3grp:rwx \ 
/data/sandbox/lob3 

[root@server1 ~]# hdfs dfs -setfacl -m default:group:lob3adm:rwx V 
/data/sandbox/lob3 


[root@server1 ~]# hdfs dfs -setfacl -m group: lobigrp:rwx /data/sandbox/lob1 
[root@server1 ~]# hdfs dfs -setfacl -m group: lobiadm:rwx /data/sandbox/lob1 
[root@server1 ~]# hdfs dfs -setfacl -m group: lob2grp:rwx /data/sandbox/lob2 
[root@server1 ~]# hdfs dfs -setfacl -m group: lob2adm:rwx /data/sandbox/lob2 
[root@server1 ~]# hdfs dfs -setfacl -m group: lob3grp:rwx /data/sandbox/lob3 
[root@server1 ~]# hdfs dfs -setfacl -m group: lob3adm:rwx /data/sandbox/lob3 
[root@server1 ~]# 


所 有 扩展 ACL 已 设置 ， 查 看 其 中 之 一 : 


[root@server1 ~]# hdfs dfs -getfacl -R /data/sandbox/lob1 
# file: /data/sandbox/lob1 
# owner: hdfs 

# group: lobigrp 

user: :rwx 

group: :rwx 

group: hive: rwx 

group: Lob1adm: rwx 

group: Lobigrp:rwx 

mask: :rwx 

other::--- 
default:user::rwx 
default:group::rwx 
default:group:hive:rwx 
default:group: lob1adm: rwx 
default:group: Lobigrp: rwx 
default:mask: : rwx 
default:other::--- 
[root@server1 ~]# 


我 们 已 经 处 理 了 所 有 租用 集群 的 用 户 ， 还 要 确认 也 在 HDFS 中 为 非 交互 的 ETL 用 户 创建 了 
可 用 空间 : 


[root@server1 ~]# hdfs dfs -mkdir /data/etl 

[root@server1 ~]# hdfs dfs -chown etluser:hive /data/etl 

[root@server1 ~]# hdfs dfs -chmod 770 /data/etl 

[root@server1 ~]# hdfs dfs -setfacl -m default:group:hive:rwx /data/etl 
[root@server1 ~]# hdfs dfs -setfacl -m group:hive:rwx /data/etl 
[root@server1 ~]# hdfs dfs -setfacl -m default:user:etluser:rwx /data/etl 
[root@server1 ~]# hdfs dfs -setfacl -m user:etluser:rwx /data/etl 






































E 








[root@server1 ~]# hdfs dfs -getfacl /data/etl 
# file: /data/etl 

# owner: etluser 

# group: hive 

user: :rwx 
user:etluser:rwx 

group: :rwx 
group:hive:rwx 

mask: : rwx 

other::--- 
default:user::rwx 
default:user:etluser:rwx 
default: group: : rwx 
default: group: hive: rwx 
default:mask: : rwx 
default:other::--- 
[root@server1 ~]# 


下 一 步 是 开始 在 Hive 中 使 用 beeline 命令 行 执行 一 些 管理 任务 。 我 们 将 使 用 hive 用 户 ， 
因为 默认 情况 下 它 是 一 个 Sentry 管理 员 ， 因 此 可 以 创建 策略 。 



































你 可 以 使 用 属性 文件 为 beeline 指定 连接 信息 。 这 上 比 记 住 语法 或 者 查找 bash 
历史 记录 容易 得 多 。 


我 们 要 使 用 的 beeline.properties 文件 如 示例 13-1 所 示 。 注 意 ， 用 户 名 和 口令 是 实际 认证 
所 必需 的 ， 但 空 着 ， 因 为 启用 了 Kerberos, 














示例 13-1  beeline.properties 文件 


ConnectionURL=jdbc:hive2://server1.example.com:10000/;principal= 
hive/server1.example.com@EXAMPLE.COM 

ConnectionDriverName=org.apache.hive. jdbc.HiveDriver 

ConnectionUserName=. 

ConnectionPassword=. 


[root@server1 ~]# kinit hive 
Password for hive@EXAMPLE.COM: 
[root@server1 ~]# beeline 


beeline> !properties beeline. properties 


CREATE ROLE sqladmin; 

GRANT ROLE sqladmin TO GROUP hive; 

GRANT ALL ON SERVER serveri TO ROLE sqladmin; 
CREATE DATABASE lobi LOCATION '/data/sandbox/1lob1'; 
CREATE DATABASE lob2 LOCATION '/data/sandbox/lob2'; 
CREATE DATABASE lob3 LOCATION '/data/sandbox/lob3'; 
CREATE DATABASE etl LOCATION '/data/etl'; 


创建 管理 员 角 色 和 数据 库 之 后 ， 可 以 设置 Sentry 策略 为 Hive 和 Implala 提供 对 终端 用 户 的 
授权 。 


VVVVVVV， 
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CREATE ROLE lobianalyst; 

GRANT ROLE lobianalyst TO GROUP lobigrp; 

GRANT ALL ON DATABASE lobi TO ROLE lobianalyst; 

CREATE ROLE lobiadministrator; 

GRANT ROLE lobiadministrator TO GROUP lobiadm WITH GRANT OPTION; 
GRANT ALL ON DATABASE lobi TO role lobiadministrator; 

CREATE ROLE lob2analyst; 

GRANT ROLE lob2analyst TO GROUP lob2grp; 

GRANT ALL ON DATABASE lob2 TO ROLE lob2analyst; 

CREATE ROLE lob2administrator; 

GRANT ROLE lob2administrator TO GROUP lob2adm WITH GRANT OPTION; 
GRANT ALL ON DATABASE lob2 TO ROLE lob2administrator; 

CREATE ROLE lob3analyst; 

GRANT ROLE lob3analyst TO GROUP lob3grp; 

GRANT ALL ON DATABASE lob3 TO role lob3analyst; 

CREATE ROLE lob3administrator; 

GRANT ROLE lob3administrator TO GROUP lob3adm WITH GRANT OPTION; 
GRANT ALL ON DATABASE lob3 TO ROLE lob3administrator; 

CREATE ROLE etl; 

GRANT ROLE etl TO GROUP etluser; 

GRANT ALL ON DATABASE etl TO ROLE etl; 


列 在 假设 里 的 另 一 个 重要 需求 是 ， 用 户 应 能 上 传 自 服务 文件 到 他 们 自己 的 沙 箱 。 要 允许 用 
户 利用 Hive 和 Impala 中 的 这 些 文件 ， 他 们 还 需要 一 些 URI 权限 。 我 们 还 将 继续 提供 写 权 
限 ， 使 用 户 能 够 从 Hive 提取 数据 并 导入 沙 箱 区 域 ， 以 供 额外 的 非 SQL 分 析 使 用 。 


> GRANT ALL ON URI 'hdfs://nameservicei/data/etl' TO ROLE etl; 
> GRANT ALL ON URI 'hdfs://nameservice1/data/sandbox/lob1' TO ROLE lobianalyst; 
> GRANT ALL ON URI 'hdfs://nameservicei/data/sandbox/lob1' 

TO ROLE lobiadministrator; 
> GRANT ALL ON URI 'hdfs://nameservicei/data/sandbox/lob2' TO ROLE lob2analyst; 
> GRANT ALL ON URI 'hdfs://nameservicei/data/sandbox/lob2' 

TO ROLE lob2administrator; 
> GRANT ALL ON URI 'hdfs://nameservicei/data/sandbox/lob3' TO ROLE lob3analyst; 
> GRANT ALL ON URI 'hdfs://nameservicei/data/sandbox/lob3' 

TO ROLE lob3administrator; 


V M V V V V V V V V V V V V V V V V VN V 





以 上 展示 的 URI 路 径 使 用 了 HDFS HA 命名 服务 名 称 。 如 果 没 有 配置 HA， 
则 需要 指定 NameNode 的 完全 限定 域名 ， 包 括 端 口 (8020). 





13.1.2 用户 体 验 


当 环 境 全 部 上 线 就 绕 ， 并 且 配 备 一 整套 HDFS 权限 和 Sentry 策略 后 ， 下 面 看 看 在 这 些 落 实 
的 措施 下 ， 终 端 用 户 看 到 的 内 容 。 首 先 看 看 sqladmin 角色 的 用 户 会 看 到 什么 : 
[root@server1 ~]$ kinit hive 


Password for hive@EXAMPLE.COM: 
[root@server1 ~]$ beeline 





> !properties beeline. properties 





> SHOW DATABASES; 


> quit; 

[root@server1 ~]$ 
如 上 所 示 ，sqladmin 角色 被 允许 查看 我 们 创建 的 每 一 个 数据 库 。 这 和 预期 的 一 致 ， 因 为 
sqladmin 角色 被 授予 了 对 SERVER 对 象 的 完全 访问 权限 。 接 下 来 看 看 被 分 配 到 etl 角色 的 用 
户 会 看 到 什么 : 

[root@server1 ~]$ kinit etluser 


Password for etluserQEXAMPLE. COM: 
[root@server1 ~]$ beeline 





> !properties beeline. properties 


> SHOW DATABASES; 


+---------------- 十 
| database_name | 
+---------------- 十 
| default | 
| etl 
+---------------- 十 
> USE lob1; 


Error: Error while compiling statement: FAILED: SemanticException 

No valid privileges (state-42000,code-40000) 

» quit; 

[root@server1 ~]$ 
用 户 这 次 没有 看 到 metastore 中 的 所 有 数据 库 ， 而 只 看 到 了 包含 他 们 具有 访问 权限 的 对 象 的 
数据 库 。 上 述 例子 说 明 ， 不 仅 用 户 没有 访问 权限 的 对 象 是 对 用 户 隐藏 的 ， 而 且 即 便 用 户 通 
过 名 称 请 求 该 对 象 ， 也 会 被 拒绝 。 这 正 是 我 们 期 望 的 。 
现在 ， 假 定 etl 数据 库 中 的 表 sample 07 需要 变 成 对 loblanalyst 角色 可 用 ， 然 而 要 注意 : 
并 非 所 有 列 都 可 以 共享 。 为 此 ， 需 要 创建 一 个 只 包含 我 们 想 对 该 角色 可 见 的 列 的 视图 。 创 
建 该 视图 后 ， 授 予 loblanalyst 角色 对 其 的 访问 权限 : 

[root@server1 ~]$ kinit hive 


Password for hive@EXAMPLE.COM: 
[root@server1 ~]$ beeline 




















> !properties beeline.properties 


> USE etl; 
> CREATE VIEW sample 07 view AS SELECT code, description, total emp 
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FROM sample_07; 

> GRANT SELECT ON TABLE sample 07 view TO ROLE lobianalyst; 
» quit; 

[root@server1 ~]$ 


完成 这 些 工 作 后 ， 可 以 用 一 个 被 分 配 到 Lobtanalyst 角色 的 用 户 测试 访问 权限 : 


[root@server1 ~]$ kinit lobiuser 
Password for lobiuser(EXAMPLE.COM: 
[root@server1 ~]$ beeline 


> !properties beeline.properties 


> SHOW DATABASES; 


+---------------- + 
| database name | 
+---------------- 十 
| default | 
| etl | 
| lobi 
+---------------- 十 
> USE etl; 

> SHOW TABLES; 
+---------------- 十 
| tab_name | 
+---------------- 十 
| sample 07 view | 
+---------------- 十 


> SELECT * FROM sample 07 LIMIT 1; 

Error: Error while compiling statement: FAILED: SemanticException 

No valid privileges (state-42000,code-40000) 

» quit; 

[root@server1 ~]$ hdfs dfs -ls /data/etl 

ls: Permission denied: user-lobiuser, access=READ EXECUTE, inode-"/data/etl": 
etluser:hive:drwxrwx---:group::---,group:hive:rwx, 
default:user::rwx,default:group::---,default:group:hive:rwx, 
default:mask::rwx,default:other::--- 

[root@server1 ~]$ 





如 上 所 示 ，Lobluser 能 够 在 列表 中 看 到 etl 数据 库 。 但 注意 ， 该 数据 库 中 只 有 sample 07. 
view 对 象 是 可 见 的 。 如 我 们 所 预期 的 ， 用 户 无 法 通过 SQL 访问 或 者 直接 的 HDFS 访问 
读 取 源 表 。 上 述 例子 中 有 一 些 access denied 信息 ， 所 以 查看 日 志文 件 中 出 现 了 什么 。 从 


HiveServer2 日 志 开 始 : 








2015-01-13 19:31:40,173 ERROR org.apache.hadoop.hive.ql.Driver: FAILED: 
SemanticException No valid privileges 
org.apache.hadoop.hive.ql.parse.SemanticException: No valid privileges 
at org.apache.sentry.binding.hive.HiveAuthzBindingHook. 
postAnalyze(HiveAuthzBindingHook. java: 320) 
at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:457) 
at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:352) 
at org.apache.hadoop.hive.ql.Driver.compileInternal 
(Driver.java:995) 
at org.apache.hadoop.hive.ql.Driver.compileAndRespond 





(Driver.java:988) 

at org.apache.hive.service.cli.operation.SQLOperation.prepare 
(SQLOperation.;java:98) 

at org.apache.hive.service.cli.operation.SQLOperation.run 
(SQLOperation. java:163) 

at org.apache.hive.service.cli.session.HiveSessionImpl. 
runOperationWithLogCapture(HiveSessionImpl. java:524) 

at org.apache.hive.service.cli.session.HiveSessionImpl. 
executeStatementInternal(HiveSessionImpl.;java:222) 

at org.apache.hive.service.cli.session.HiveSessionImpl. 
executeStatement(HiveSessionImpl. java:204) 

at org.apache.hive.service.cli.CLIService.executeStatement 
(CLIService. java: 168) 

at org.apache.hive.service.cli. thrift. ThriftCLIService. 
ExecuteStatement(ThriftCLIService. java: 316) 

at org.apache.hive.service.cli. thrift. TCLIService$Processor 
SExecuteStatement.getResuLt(TCLIService. java: 1373) 

at org.apache.hive.service.cli.thrift.TCLIService$Processor 
S$ExecuteStatement.getResult(TCLIService.java:1358) 

at org.apache.thrift.ProcessFunction.process 
(ProcessFunction.java:39) 


at org.apache.thrift.TBaseProcessor.process(TBaseProcessor.java:39) 


at org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20SSServer 


STUGIAssumingProcessor .process(HadoopThriftAuthBridge20S. java:608) 


at org.apache. thrift.server.TThreadPoolServer$WorkerProcess.run 


(TThreadPoolServer. java: 244) 

at java.util.concurrent.ThreadPoolExecutor.runWorker 
(ThreadPoolExecutor.java:1145) 

at java.util.concurrent.ThreadPoolExecutorS$Worker.run 
(ThreadPoolExecutor.java:615) 

at java.lang.Thread.run(Thread. java: 745) 


Caused by: org.apache.hadoop.hive.ql.metadata.AuthorizationException: 


User lobiuser does not have privileges for QUERY 


at org.apache.sentry.binding.hive.authz.HiveAuthzBinding.authorize 


(HiveAuthzBinding.java:317) 
at org.apache.sentry.binding.hive.HiveAuthzBindingHook. 
authorizeWithHiveBindings(HiveAuthzBindingHook. java:502) 
at org.apache.sentry.binding.hive.HiveAuthzBindingHook. 
postAnalyze(HiveAuthzBindingHook.java:312) 
. 20 more 


i 


接 下 来 ， 可 以 看 到 出 现在 NameNode 审计 日 志 中 的 拒绝 访问 的 审计 事件 


2015-01-13 20:01:15,005 INFO FSNamesystem.audit: allowed=false 
ugi-lobiuserQEXAMPLE.COM (auth:KERBEROS) 

ip-/10.6.9.73 

cmd-listStatus src-/data/etl dst-null perm=null 


13.1.3 











小 结 










































































这 个 基础 的 案例 分 析 展 示 了 ， 如 何 看 待 使 用 Sentry 策略 外 加 HDFS 扩展 ACL 进行 数据 保护 。 
该 示例 有 意 做 得 很 简单 ， 但 它 也 说 明 ， 在 多 重任 务 处 理 环 境 下 ， 将 数据 组 织 作为 一 个 关键 因素 
考虑 何等 重要 。 只 有 对 数据 如 何 存放 在 HDFS 中 具有 一 个 清晰 的 概念 ， 安 全 管理 才 会 更 容易 。 
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13.2 ”案例 分 析 : 交互 式 HBase Web 应 用 


Hadoop 的 一 个 常见 用 例 是 搭建 大 规模 Web 应 用 。HBase 的 一 些 特性 使 它 成 为 交互 式 大 规 
模 应 用 的 理想 选择 : 


。 支持 复杂 对 象 、 具 有 快速 演化 模式 的 灵活 的 数据 模型 
。 添加 或 移 除 集群 市 点 时 的 数据 自动 重 分 区 
。 集成 Hadoop 生态 系统 其 余部 分 以 支持 事务 数据 的 离线 分 析 

。 行内 ACID 交易 

。 对 各 种 应 用 的 高 级 授权 功能 

对 于 本 书 ， 我 们 最 关心 列表 中 的 最 后 一 个 功能 。 对 于 交互 式 应 用 ， 你 经 常 需要 对 哪个 用 户 
能 访问 哪个 数据 集 进行 控制 。 例 如 ， 一 个 类 似 Twitter 的 应 用 就 具有 完全 公开 的 消息 、 仅 
限 授 权 用 户 白 名 单 的 消息 ， 以 及 完全 私有 的 消息 。 要 想 在 这 种 动态 安全 需求 面前 灵活 管理 
授权 ， 需 要 同样 动态 的 数据 库 使 用 方式 。 
这 个 案例 分 析 中 ， 我 们 将 看 到 一 个 存储 和 浏览 网 页 快照 的 应 用 。 这 个 案例 分 析 建 立 在 
The Kite SDK (http://kitesdk.org) 提供 的 一 个 基于 HBase 的 开源 Web 应 用 示例 (https:/ 
github.com/kite-sdk/kite-spring-hbase-example)， 原 本 的 示例 作为 部 署 在 OpenShift 中 的 
一 个 应 用 ， 以 及 部 署 在 HBase 集群 中 的 一 个 生产 应 用 ， 工 作 在 单机 开发 模式 下 。 由 于 
MiniHBaseCluster 类 (用 于 开发 模式 和 OpenShift 部 置 ) 的 局 限 ， 我 们 的 版 本 仅 为 生产 应 
用 ,保护 HBase 集群 。 我 们 这 个 版 本 的 该 示例 完整 源 代码 在 与 本 书 配套 的 GitHub 源码 库 
(https://github.com/hadoop-security/kite-spring-hbase-example) 中 。 


13.2.1 设计 与 架构 

首先 看 看 这 个 网 页 快照 示例 的 架构 ， 如 图 13-1 所 示 。 该 Web 应 用 部 署 在 一 个 边界 节点 上 ， 
用 户 通 过 浏览 器 连接 到 该 应 用 ， 并 使 用 URL 创建 新 快照 或 者 查看 已 有 快照 。 创 建新 快照 
时 ,该 Web 应 用 会 下 载 网 页 和 元 数据 ， 并 将 它们 存储 在 HBase 中 。 查 看 快照 时 ,该 Web 
应 用 会 从 HBase 获取 页 面 元 数据 和 快照 ， 并 展示 到 浏览 器 。 


用 户 
Internet i 浏览 


13-1: Web 应 用 架构 
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开始 讨论 安全 需求 之 前 ， 先 看 看 该 例 中 使 用 的 数据 模型 。 每 个 网 页 都 使 用 一 个 URL 作 
为 唯一 标识 ， 每 个 快照 由 获取 网 页 的 时 间 进 一 步 确 定 。 数 据 模 型 中 的 完整 字段 列表 见 表 
13-1, 


713-1: 网 页 快照 数据 模型 































































































字段 类 型 描述 

url String 网 页 的 URL 

fetchedAt long 网 页 被 获取 的 UTC 时 间 
fetchTimeMs int 获取 网 页 所 用 的 时 间 ， 以 ms 为 单位 
size int 网 页 大 小 

title String HTML 页 面 标题 (如 果 有 ) 
description String HTML 元 标签 (meta tag) 中 的 描述 
keywords List<String> HTML 元 标签 中 的 关键 字 

outlinks List<String> 该 网 页 链接 到 的 页 面 URL 

content String 网 页 内 容 





HBase 将 数据 存储 为 多 维 排序 映射 ， 这 意味 着 需要 将 我 们 记录 里 的 字段 映射 到 Habse 用 
于 排列 数据 的 行 键 、 列 族 和 列 限定 键 。 对 于 用 例 而 言 ， 我 们 希望 HBase 的 每 行 以 URL 
和 获取 快照 的 时 间 为 键 值 进行 检索 。 为 了 使 最 近 的 快照 排 在 前 面 ， 我 们 在 行 键 中 使 用 
fetchedAt [hf [a] 8X 7 Ail, 76 GE A Long.MAX_VALUE 减 去 其 值 ， 从 而 实现 反问 排序 ， 见 图 
13-2 中 的 <rev fetchedAt>。 每 个 字段 都 对 应 HBase 中 的 一 列 ， 因 此 定义 了 从 每 个 字段 名 
称 到 列 族 和 列 限定 符 的 上 映射。 图 13-2 展示 了 行 键 是 如 何 被 映射 的 ， 并 给 出 了 映射 到 HBase 
列 的 字段 示例 。 

















































fetchedAt 
fetchedTimeMs 
:| /ee fetchedio [«outlinks] 


图 18-2: 原始 的 HBase 数据 模型 映射 












«url»«rev fetchedAt> fetch time] <fetchTimeMs> 

















13.2.2 ”安全 需求 


现在 可 以 向 该 示例 添加 安全 特性 了 。 黑 认 情 况 下 ， 快 照 中 的 所 有 字段 都 能 被 任意 用 户 访 
问 。 我 们 的 用 例 中 ， 想 在 默认 情况 下 锁定 网 页 内 容 ， 只 在 我 们 要 求 公 开 某 个 快照 时 才能 被 
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访问 。 可 以 使 用 单元 级 安全 并 保持 数据 模型 与 之 前 使 用 的 一 样 ， 但 这 对 于 用 例 而 言 可 能 是 
“ 杀 鸡 用 牛刀 ”。 相 反 ， 我 们 可 以 稍微 修改 一 下 数据 模型 。 
特别 地 ， 我 们 将 向 模型 添加 一 个 contentKey *£ Et, contentKey 将 被 用 作 存 储 内 容 的 列 限 
定 符 。 使 用 用 户 名 作为 私有 快照 的 contentKey， 对 于 公开 快照 则 使 用 特殊 值 public。 现 
在 希望 在 可 能 的 不 同 列 限定 符 中 存储 每 个 快照 的 内 容 。 因 此 ， 将 content 字段 的 类 型 改 为 
Map<String, String>, 13-3 展示 了 更 新 后 的 映射 配置 。 

















































| | 
prp 


<curb<rev Fetchedat> R 


13-3: 更 新 后 的 HBase 数据 模型 映射 












«url»«rev fetchedAt> fetch time| <fetchTimeMs> 

















继续 之 前 ， 先 总 结 一 下 想 在 应 用 中 实施 的 安全 需求 列表 : 


(1) 私有 快照 的 内 容 只 能 被 创建 该 快照 的 用 户 访问 
(2) 公开 快照 的 内 容 对 所 有 用 户 可 见 

(3) 所 有 快照 的 元 数据 对 所 有 用 户 可 见 

(4) 用 户 使 用 HTTP 基本 认证 进行 应 用 的 身份 验证 
(5) 应 用 模拟 已 认证 用 户 的 身份 与 HBase 通信 

(6) 在 HBase 级 进行 强制 授权 


13.2.3 ”集群 配置 


有 了 这 些 需 求 ， 下 面 可 以 开始 配置 集群 。 需 求 (5) 说 明 该 应 用 需要 与 HBase 进行 身份 验证 。 

为 了 启用 HBase 身份 验证 ， 必 须 先 启 用 Hadoop 身份 验证 。 要 满足 需求 (6)， 还 需要 启用 

HBase 授权 ，HBase 授权 也 是 需求 (1) 和 (2) 的 必要 条 件 。 需 求 (3) 说 明 ， 要 允许 所 有 用 户 

访问 元 数据 字段 。 需 求 (4) 适用 于 Web 应 用 自身 以 及 应 用 服务 器 ， 对 于 我 们 而 言 ， 使 用 的 

是 Tomcat。 现 在 准备 开始 计划 我 们 的 配置 步骤 : 

(1) 配置 Hadoop 身份 验证 (IL 5.2.5 75) ; 

(2) 配置 HBase 身份 验证 [参考 The Apache HBase Reference Guide (http://hbase.apache.org/ 
book.html) 中 的 Securing Apache HBase (http://hbase.apache.org/book.html#security ) ] ; 

(3) 向 hbase-site.xml 添加 如 下 内 容 ， 以 配置 HBase 授权 : 
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(5) 为 该 应 用 创建 一 个 Kerberos 主体 ， 并 将 密 钥 导出 到 keytab 文件 : 


<property> 
<name>hbase. coprocessor .region.classes</name> 
<value> 
org.apache.hadoop.hbase.security.access.AccessController, 
org.apache.hadoop.hbase.security.token.TokenProvider 
</value> 
</property> 
<property> 
<name>hbase. coprocessor .master.classes</name> 
«value» 
org.apache.hadoop.hbase.security.access.AccessController 
</value> 
</property> 
<property> 
<name>hbase.coprocessor.regionserver .classes</name> 
«value» 
org.apache.hadoop.hbase.security.access.AccessController 
</value> 
</property> 
<property> 
<name>hbase.security.exec. permission. checks</name> 
<value>true</value> 
</property> 





(4) 创建 一 个 Kerberos Eff, $47 HBase 管理 功能 : 


kadmin: addprinc hbase@EXAMPLE.COM 

WARNING: no policy specified for hbase@EXAMPLE.COM; defaulting to no \ 
policy 

Enter password for principal "hbase@EXAMPLE.COM": 

Re-enter password for principal "hbase@EXAMPLE.COM": 

Principal "hbase@EXAMPLE.COM" created. 

kadmin: 


T 








kadmin: addprinc web-page-snapshotsQEXAMPLE. COM 

WARNING: no policy specified for web-page-snapshots(QEXAMPLE. COM; 
defaulting to no policy 

Enter password for principal "web-page-snapshots(QEXAMPLE . COM" : 
Re-enter password for principal "web-page-snapshotsQEXAMPLE. COM" : 
Principal "web-page-snapshots@EXAMPLE.COM" created. 

kadmin: ktadd -k app.keytab web-page-snapshots 

Entry for principal web-page-snapshots with kvno 4, encryption type 
des3-cbc-sha1 added to keytab WRFILE:app.keytab. 

Entry for principal web-page-snapshots with kvno 4, encryption type 
arcfour-hmac added to keytab WRFILE:app.keytab. 

Entry for principal web-page-snapshots with kvno 4, encryption type 
des-hmac-sha1 added to keytab WRFILE:app.keytab. 

Entry for principal web-page-snapshots with kvno 4, encryption type 
des-cbc-md5 added to keytab WRFILE:app.keytab. 

kadmin: 


(6) 将 keytab 文件 复制 到 该 应 用 用 户 的 home 目录 ， 
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(7) 授予 应 用 主体 创建 表 的 权限 : 


(8) 创建 HBase X: 
[app@snapshots -]$ kinit -kt ~/app.keytab web-page-snapshots 


[app@snapshots ~]$ 


kinit hbase 


Password for hbase@ENT.CLOUDERA.COM: 


[app@snapshots ~]$ 


hbase shell 


14/11/13 14:45:53 INFO Configuration.deprecation: hadoop.native.lib is 
deprecated. Instead, use io.native.lib.available 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.6, rUnknown, Sat Oct 11 15:15:15 PDT 2014 


hbase(main):001:0> grant 'web-page-snapshots', 'RWXCA' 


0 row(s) in 4.0340 


hbase(main) :002:0> 





seconds 


[app@snapshots ~]$ export KITE USER CLASSPATH-/etc/hadoop/conf 


[app@snapshots ~]$ 


export \ 


ZK=zk1.example.com,zk2.example.com,zk3.example.com 
[app@snapshots ~]$ kite-dataset create V 
dataset: hbase:${ZK}:2181/webpagesnapshots.WebPageSnapshotModel V 
-s src/main/avro/hbase-models/WebPageSnapshotModel.avsc 
[app@snapshots ~]$ kite-dataset create V 
dataset:hbase:$(ZK] :2181/webpageredirects.WebPageRedirectModel V 
-s src/main/avro/hbase-models/WebPageRedirectModel.avsc 


[app@snapshots -]$ 


(9) 授予 用 户 alice 和 bob 访问 公共 表 / 列 的 权限 : 


[app@snapshots ~]$ kinit -kt ~/app.keytab web-page-snapshots 


[app@snapshots ~]$ 


hbase shell 


14/11/13 14:45:53 INFO Configuration.deprecation: hadoop.native.lib is 
deprecated. Instead, use io.native.lib.available 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.6, rUnknown, Sat Oct 11 15:15:15 PDT 2014 


hbase(main) :001:0> 
'public' 
0 row(s) in 2.9580 


hbase(main) :002:0> 
0 row(s) in 0.1640 


hbase(main) :003:0> 
0 row(s) in 0.2100 


hbase(main) :004:0> 
0 row(s) in 0.1600 


hbase(main) :005:0> 
0 row(s) in 0.1600 


hbase(main) :006:0> 


grant 'alice', 
seconds 


grant 'alice', 
seconds 


grant 'alice', 
seconds 


grant 'alice', 
seconds 


grant 'alice', 
seconds 


grant 'alice', 


'RW', 'webpagesnapshots', 


'RW', 'webpagesnapshots', 


'RW', 'webpagesnapshots', 


'RW', 'webpagesnapshots', 


'RW', 'webpageredirects 


'RW', 'managed schemas' 


'content', 


'meta' 


'observable' 





0 row(s) in 0.1570 seconds 


hbase(main):007:0> grant 'bob', 'RW', 'webpagesnapshots', 'content', 
'public' 
© row(s) in 0.1920 seconds 


hbase(main):008:0> grant 'bob', 'RW', 'webpagesnapshots', 
0 row(s) in 0.1510 seconds 


hbase(main):009:0> grant 'bob', 'RW', 'webpagesnapshots', 'meta' 
© row(s) in 0.2100 seconds 


hbase(main):010:0> grant 'bob', 'RW', 'webpagesnapshots', 'observable' 
© row(s) in 0.1640 seconds 


hbase(main):011:0> grant 'bob', 'RW', 'webpageredirects' 
© row(s) in 0.1590 seconds 


hbase(main):012:0> grant 'bob', 'RW', 'managed schemas' 
© row(s) in 0.1870 seconds 


hbase(main) :013:0> 


(10) 授予 alice 和 bob 访问 各 自私 有 列 的 权限 : 


[app@snapshots ~]$ kinit -kt ~/app.keytab web-page-snapshots 
[app@snapshots ~]$ hbase shell 

14/11/13 14:45:53 INFO Configuration.deprecation: hadoop.native.lib is 
deprecated. Instead, use io.native.lib.available 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 

Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.6, rUnknown, Sat Oct 11 15:15:15 PDT 2014 


hbase(main):001:0> grant 'alice', 'RW', 'webpagesnapshots', 'content', 
'alice' 


0 row(s) in 2.8890 seconds 

hbase(main):002:0> grant 'bob', 'RW', 'webpagesnapshots', 'content', 
' bob' 

0 row(s) in 0.1600 seconds 


hbase(main) :003:0> 


(11) 添加 如 下 参数 到 所 有 HBase 节点 的 hbase-site.xml 文件 ， 从 而 启用 利用 web-page- 
snapshots 主体 的 用 户 模拟 : 


<property> 
<name>hadoop. proxyuser .web-page- snapshots. groups</name> 
<value>*</value> 

</property> 

<property> 
<name>hadoop. proxyuser .web-page- snapshots. hosts</name> 
<value>*</value> 

</property> 
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还 有 一 些 本 示例 应 用 的 设计 和 实现 所 特有 的 其 他 配置 步 又 ， 运 行 该 示例 的 完 
整 步骤 可 参见 Github 上 本 项 目的 README 文档 (https://github.com/hadoop- 


security/kite-spring-habse-example) 。 


13.2.4 实现 中 的 注意 事项 

为 应 用 添加 安全 特性 时 ， 我 们 做 了 一 些 实现 上 的 修改 。 虽 然 可 以 通过 比较 我 们 的 示例 与 原 
始 的 Kite SDK 示例 查看 完整 的 修改 列表 ， 但 此 处 依然 总 结 一 下 关键 的 修改 。 第 一 处 修改 
是 增加 了 额外 的 Kerberos 登录 模块 ， 以 通过 应 用 的 keytab 获取 Kerberos TGT, Spring W) 
始 化 其 他 Web 应 用 之 前 会 加 载 该 模块 。 下 面 是 该 模块 的 一 个 不 包括 登录 或 错误 检查 的 简 
化 版 : 


public class KerberosLoginService { 




















public KerberosLoginService(String applicationPrincipal, 
String applicationKeytab) throws IOException { 


if (UserGroupInformation.isSecurityEnabled()) { 
UserGroupInformation.loginUserFromKeytab(applicationPrincipal, 
applicationKeytab); 
} 
} 
} 

这 里 的 要 点 是 ， 我 们 使 用 UserGroupInformation 类 的 loginUserFromKeytab() 方法 前 ， 要 
首先 确认 已 经 启用 了 集群 上 的 安全 策略 。 该 方法 会 使 用 keytab 文件 获取 我 们 的 Kerberos 
TGT, 


从 Hadoop 安全 角度 考虑 的 第 二 处 所 需 的 改动 是 ， 修 改 WebPageSnapshotService 以 模拟 认 
证 后 的 用 户 与 HBase 通信 。 为 了 实现 这 个 目标 ， 使 用 UserGroupInformation 对 象 的 doAs() 
方法 ， 该 对 象 代表 了 我 们 想 要 模拟 的 代理 用 户 。 如 下 示例 向 WebPageSnapshotService 中 的 
一 个 方法 添加 身份 模拟 : 
private WebPageSnapshotModel getWebPageSnapshot(String url, 
final long ts, final String user) throws IOException { 


WebPageSnapshotModel snapshot = null; 
final String normalizedUrl = normalizeUrl(url, user); 




















UserGroupInformation ugi = UserGroupInformation.createProxyUser(user, 
UserGroupInformation.getLoginUser()); 
snapshot = ugi.doAs(new PrivilegedAction<WebPageSnapshotModel>() { 


@Override 
public WebPageSnapshotModel run() { 
Key key = new Key.Builder(webPageSnapshotModels(user)) 
.add("url", normalizedUrl) 
.add("fetchedAtRevTs", Long.MAX VALUE - ts).build(); 
return webPageSnapshotModels(user).get(key); 





})s 


return snapshot; 
} 
最 后 一 个 所 需 的 改动 是 ， 从 使 用 单一 共享 的 HBase 连接 变 成 为 每 个 用 户 创建 一 个 连接 ， 这 
是 由 HBase 客户 端 缓 存 连 接 的 方法 决定 的 。 最 重要 的 关键 点 是 ， 为 每 个 用 户 创建 连接 ， 并 
在 HBase 要 使 用 的 Configuration 对 象 中 ， 将 hbase.client.instance.id 设 为 唯一 值 。 对 
于 该 应 用 ， 我 们 创建 一 个 实用 方法 以 创建 和 缓存 连接 : 
private synchronized RandomAccessDataset<WebPageSnapshotModel> 
webPageSnapshotModels(String user) { 





Tar 









































RandomAccessDataset«WebPageSnapshotModel» dataset - 
webPageSnapshotModelMap.get(user); 


if (dataset == null) { 

Configuration conf - new Configuration( 
DefaultConfiguration.get()); 

conf.set("hbase.client.instance.id", user); 

DefaultConfiguration.set(conf); 

dataset - Datasets.load(webPageSnapshotUri, 
WebPageSnapshotModel.class); 

webPageSnapshotModelMap.put(user, dataset); 


j 


return dataset; 


} 


13.2.5 小结 

本 案例 分 析 中 ， 我 们 对 一 个 典型 交互 式 HBase 应 用 的 设计 和 架构 进行 了 综述 ， 然 后 探讨 了 
与 用 例 相关 的 安全 考虑 (身份 验证 、 授 权 、 身 份 模拟 等 )， 还 描述 了 要 支持 我 们 的 授权 模 
型 所 必需 的 数据 模型 改动 。 接 下 来 ， 总 结 了 想 要 增加 到 应 用 中 的 安全 需求 ， 并 给 出 配置 集 
群 ， 以 满足 该 安全 需求 的 必要 步骤 。 最 后 ， 描 述 了 应 用 实现 中 要 支持 这 些 安全 需求 所 需 的 
部 分 修改 。 
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问世 以 来 ，Hadoop 已 经 走 过 很 长 一 段 路 。 正 如 你 在 本 书 中 看 到 的 ， 安 全 在 整个 生态 系统 
中 包含 大 量 内 容 。 随 着 大 数据 的 兴起 ， 以 及 在 那些 迅速 使 用 Hadoop 作为 数据 平台 的 企业 
中 的 影响 ，Hadoop 及 其 庞大 生态 系统 的 快速 发 展 已 不 足 为 奇 。 尽 管 如 此 ，Hadoop 仍 处 于 
非常 早期 的 阶段 。 虽 然 有 很 多 可 用 的 安全 配置 ， 但 Hadoop 要 想 达到 关系 型 数据 库 和 数据 
仓库 的 水 准 ， 以 完全 满足 资产 上 亿 的 公司 在 数据 管理 上 的 需求 ， 还 有 很 多 工作 要 做 。 


好 在 由 于 Hadoop 在 市 场 上 的 巨大 增长 ， 人 们 在 快速 填补 其 安全 空缺 。 书 中 没有 讨论 的 要 
么 是 现在 正 处 于 开发 阶段 (可 能 在 本 书 出 版 时 已 经 完成 ) 的 内 容 ， 要 么 是 在 不 久 的 将 来 会 
变 成 Hadoop 生态 系统 一 部 分 的 特性 。 


统一 授权 


Hadoop 安全 管理 员 最 困难 的 工作 之 一 就 是 ， 要 跟踪 无 数组 件 是 如 何 处 理 访问 控制 的 。 虽 
然 我 们 把 很 多 东西 加 到 Apache Sentry， 以 作为 Hadoop 的 集中 授权 组 件 ， 但 在 为 整个 生态 
系统 提供 授权 方面 还 不 够 。 从 长 期 来 看 这 是 迟早 的 ， 也 是 必需 的 。 安 全 管理 员 和 审计 员 都 
需要 有 一 个 地 方 供 他 们 查看 和 管理 所 有 用 户 授权 控制 相关 的 策略 ， 如 果 缺 少 这 个 ， 就 很 容 
易 在 过 程 中 犯错 。 

短期 而 言 ，Apache Sentry 将 会 集成 HDFS 授权 ， 这 将 允许 有 一 个 统一 的 方法 定义 在 组 件 
之 间 共 享 数 据 时 的 数据 访问 策略 。 例 如 ， 如 果 数 据 被 载 和 Hive 仓库 并 由 Sentry 策略 控制 ， 
那 将 如 何 处 理 MapReduce 访问 ? 正如 第 13 章 所 述 ， 这 涉及 使 用 扩展 HDFS ACL。 有 了 与 
Sentry 集成 的 HDFS Ja, HDFS 路 径 可 以 被 指定 为 由 Sentry 控制 。 因 此 ， 授 权 决 策 取 决 于 
Sentry 策略 ， 而 不 是 标准 POSIX 权限 或 者 扩展 ACL. 


另外 ，Sentry 即将 与 HBase 集成 。 我 们 在 第 6 章 看 到 ， 授 权 策略 存储 在 HBase 的 一 个 特殊 
表 中 ， 并 在 默认 情况 下 通过 HBase 命令 行进 行 管理 。 将 策略 存储 迁移 到 Sentry 是 一 个 好 的 
选择 。 
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数据 管控 


本 书 不 讨论 数据 管控 的 大 型 话题 ， 但 讨论 了 甚 中 一 个 关于 审计 的 子 话题 。 如 第 8 章 所 述 ， 
集群 中 很 多 捕捉 事件 的 地 方 都 有 审计 日 志 ， 但 没有 集中 的 地 方 全 面 捕捉 审计 ， 也 没有 地 方 
进行 常规 的 数据 管控 任务 ， 如 管理 业务 元 数据 、 查 看 联系 和 族谱 、 管 理 数据 留存 等 。 传 统 
数据 仓库 中 都 突出 包含 了 这 些 功能 ， 为 了 使 Hadoop 能 够 在 整体 安全 上 更 进一步 ， 数 据 治 
理 需 要 得 到 比 现在 更 好 的 解决 。 


原生 数据 保护 


除了 加 密 之 外 ，Hadoop 还 需要 遮蔽 和 标记 化 的 原生 方法 。 虽 然 遮 蔽 可 以 创造 性 地 通过 
UDF 或 者 专门 的 视图 实现 ， 但 提供 基于 预 设 策略 遮蔽 在 线 数据 的 功能 则 会 更 有 意义 。 目 前 
有 其 他 商业 产品 提供 这 个 功能 ， 但 我 们 相信 ，Hadoop 需要 一 个 这 样 的 功能 作为 其 原生 功 
能 。 当 前 ， 不 使 用 商业 产品 的 条 件 下 不 可 能 支持 标记 化 。 然 而 标记 化 对 于 数据 科学 家 而 言 
很 重要 ， 尤 其 是 因为 他 们 可 能 不 需要 看 数据 的 具体 值 ， 但 需要 保留 数据 的 关联 关系 和 其 他 
静态 属性 以 进行 分 析 。 这 不 可 能 用 掩蔽 实现 ， 但 可 以 用 标记 化 实现 。 


结语 


Hadoop 和 大 数据 是 令 人 兴奋 的 市 场 。 虽 然 一 些 安全 专业 人 员 ， 尤 其 是 习惯 了 更 加 统一 安 
全 功能 的 安全 专业 人 员 可 能 会 对 它 有 一 些 望而却步 ， 但 我 们 希望 本 书 能 够 帮助 读者 理解 
Hadoop 安全 的 现状 ， 并 体会 到 ， 即 便 是 具有 很 多 组 件 的 庞大 Hadoop 集群 ， 也 能 使 用 精心 
策划 的 安全 架构 进行 保护 。 
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